Overblog
Editer l'article Suivre ce blog Administration + Créer mon blog

Présentation

  • : La vie au labo
  • : Les pensées - j'ose le mot- diverses d'un jeune scientifique ayant obtenu un poste académique à l'Université, après presque trois années en post-doctorat dont deux au fin fond du Massachusetts. Ca parle de science (un peu) mais surtout du "petit monde" de la science. Et aussi, entre autres, de bouffe, de littérature, de musique, d'actualité, etc. Et de ma vie, pas moins intéressante que celle d'un autre.
  • Contact

Profil

  • mixlamalice
  • Misanthrope optionnellement misogyne et Esprit Universel.

Recherche

12 décembre 2013 4 12 /12 /décembre /2013 10:26

Le facteur d'impact, ou impact factor (IF) est l'une de ces métriques à la mode qui gouvernent désormais la vie des scientifiques (et qu'ils se sont, j'ai l'impression, dans une certaine mesure, auto-imposés, comme le h-index; c'est un peu l'équivalent du porsche cayenne dans notre milieu, un substitut phallique, ou, dit autrement, "qui qu'à la plus grosse").

 

En deux mots, c'est un nombre censé indiquer la visibilité d'une revue scientifique, donc un mélange de "popularité" et de "qualité scientifique". Le calcul a été développé par la base de données ISI, et très simplement, il consiste, pour une année donnée, à additionner le nombre de citations de tous les articles parus les deux années précédentes d'une revue, puis diviser par le nombre d'articles publiés par la revue pendant cette période.  

Bref, à la grosse louche, c'est le nombre moyen par an de citations d'un article (en supposant que l'indice est stable dans le temps, ce qu'il devrait être s'il était bon, mais qu'il n'est pas nécessairement, voir plus bas), et plus ce nombre est élevé, plus la revue est lue et citée, et donc plus votre article a de chances de l'être. Ca, c'est en théorie, puisque certaines revues ont en fait une distribution bimodale de citations, comme Nature par exemple, qui a quelques articles énormément cités et beaucoup d'articles très peu cités, de sorte que la valeur moyenne n'a finalement pas beaucoup de sens.

Il y a d'autres défauts, comme pour le h-index, que vous pouvez lire sur la page wikipédia en lien, mais il se trouve que ce chiffre a pris une importance considérable, tant dans la communication des éditeurs de revues, que dans la carrière des chercheurs, à tel point qu'il n'est pas rare d'entendre demander "tu l'as publié où?" avant "ça parle de quoi?" au sujet d'une étude.

L'avantage pouvant être, pour les recrutements (et parfois les avancements pour des personnes jeunes) de s'"affranchir" (même si indirectement et de façon un peu biaisée) de la problématique du temps d'incubation des papiers nécessaire à leurs citations. Le corollaire, c'est qu'il devient impossible dans certains domaines d'être recruté sans avoir dans son CV au moins un "gros papier", eg pas un papier nécessairement très cité, mais un papier publié dans une revue à fort IF (la notion de "fort" dépendant du domaine, mais souvent, disons, supérieur à 20).

 

Essayons quand même de voir si en première approche, il y a une corrélation entre nombre de citations d'un papier et impact factor de la revue dans laquelle le papier est publié.

A priori, le nombre de citations est le véritable juge de paix de la qualité d'un papier, même si là aussi il faut nuancer un peu: papier passé sous le radar, justement parce que sorti dans une revue obscure - c'est le cas d'un certain nombre de papiers pendant la guerre froide, publié dans des revues d'Europe de l'Est en version orginale... ou bien papier auto-cité (même si, au-delà d'un certain nombre de citations, il est difficile de croire qu'elles viennent toutes de l'auteur lui-même ou de ses copains)... papier très cité parce qu'il a raconté des conneries (souvent en étant le "pionnier" d'une thématique)... et enfin, effet "buzz", un peu comme pour les vidéos youtube: au-delà d'un certain nombre de citations, on finit par citer le papier parce que tout le monde le cite (notamment dans le cas de reviews)... mais bref, faisons l'hypothèse qu'un papier très cité est un bon papier qui a fait avancer le domaine.

 

 

J'aurais bien pris mon cas pour étude, mais avec ma dizaine de papiers et mon histoire de publications qui remonte a à peine 7 ans, ce serait un peu léger statistiquement.

Alors j'ai combiné trois jeux de données, à partir des papiers de mes ex-chefs et de la base ISI Web of Knowledge.

Je me suis intéressé aux papiers pré-2010 (inclus). Le domaine de recherche est celui de la Science des Matériaux, plus précisément des matériaux polymères.

Quelques détails quant aux données:

- Cas 1: Directeur de Recherches CNRS, un peu plus de 50 ans. Pas une superstar, mais quelqu'un de reconnu internationalement. h-index environ 35, . Quelque chose comme 120 publis peer-reviewed en un peu plus de 20 ans de carrière (de 1991 à 2013). Plutôt mécanicien/physicien initialement, plus matériaux et physico-chimiste aujourd'hui. L'échantillonnage est sur 85 papiers, représentant 3426 citations et 27 journaux différents.

- Cas 2: PU d'une bonne université française, même âge, mêmes années de publication. Reconnu nationalement. h-index de 20 à 25, environ 60 publis. Plutôt chimiste/physico-chimiste. Echantillonnage sur 42 papiers, 1397 citations et 11 journaux.

- Cas 3: Full Professor d'un bon département US, 40 ans (Full Prof à 38-39 ans, Associate à 34-35, Assistant à 29). Considéré comme un "jeune qui monte" depuis pas mal de temps aux US, commence à avoir une reconnaissance internationale. Publie depuis 1997, environ 90 publis, h-index de 20 à 25. Plutôt mécanicien/physicien et ingénierie. Echantillonnage sur 47 articles, 1299 citations et 18 journaux (la structure américaine de travail fait que le nombre de publis a tendance à croître exponentiellement avec la taille du groupe, donc il y a environ 30-40 articles sur les années 2011-2013, qui n'ont pas été pris en compte)

 

Sur le total, on a donc 37 journaux différents. Je n'ai pas pris en compte ceux qui ont disparu entre temps, et il doit en manquer deux ou trois pour lesquels j'ai eu du mal (ou la flemme) à trouver l'IF. J'ai pris l'IF 2012 dans la plupart des cas, même s'il aurait peut-être fallu prendre l'IF de l'année de publication (mais difficile de trouver ceux des années 90...). Cela dit, sur les 10 dernières années, hormis cas assez rares où la publi explose ou au contraire ceux où elle tend à disparaître, c'est généralement relativement stable avec une légère inflation (disons, typiquement, un IF passera de 4 à 5 en 10 ans). Les IF des revues concernées oscillent entre 0.8 et 14.8, ce qui me semble un assez large spectre. En dessous de 1, c'est très obscur, au-dessus de 8-10, c'est une revue généraliste de référence (eg, PRL) ou "à la mode", même si ça n'atteint pas les 20 et plus de Nature (et de ses spin-offs) et de Science. Dans le domaine des polymères, les revues spécialisées oscillent, à un chouïa près, entre 2 et 5, et on est plutôt content si on publie tout le temps dans cette gamme là.

 

donnees-brutes.jpg

Légende: losange bleu, cas 1. Triangle vert, cas 2. Cercle violet, cas 3.

 

J'ai enlevé un point unique à 350 citations ou quelque chose comme ça, histoire que ça soit plus "lisible". Bon, malgré tout, on ne voit rien de bien concluant. Ou alors, si vous vous voyez quelque chose, je suis preneur en commentaires...

 

Du coup, je me suis dit qu'il fallait normer par le nombre d'années depuis la publication, et que peut-être ça aiderait à voir quelque chose (un papier publié depuis 15 ans ayant plus de chances d'être beaucoup cité qu'un sorti depuis 5, à "niveau égal").

 

normalisation.jpg

Mêmes symboles, en rouge la droite de pente 1

 

Hélas (c'est là qu'est l'os), ça reste hyper bruité, et il me semble difficile de conclure grand chose.

La droite en rouge est une espèce d'"extension de l'IF sur x années", ce qui est au-dessus pourrait donc être qualifié de "mieux cité" que la moyenne du journal, en-dessous de moins bien cité. 

Sur les trois jeux de données, il y a 37% des articles au-dessus de la droite (et 5% moins de 10% en-dessous). Si on individualise, c'est 45% au-dessus dans le cas 1, 26% pour le cas 2, 32% pour le cas 3. On peut donc sans doute corréler ça un minimum à la reconnaissance par les pairs de la carrière scientifique, mais l'effet n'est pas bluffant...

On peut essayer de définir un critère de "bon papier" (ou plutôt de papiers "très cités"): on peut voir un gap entre en-dessous de 10 citations/an et au-dessus. Difficile de discriminer entre les 3 cas aussi (on varie entre 3 et 6% sur le nombre de papiers).

On peut essayer a contrario d'identifier un critère de "mauvais papier" (ou plus politiquement correct, de papier peu lu ou peu visible), qui apparaît moins clairement, et que l'on peut donc définir semi-arbitrairement comme inférieur à 1 citation/an. La aussi, entre les cas 1 et 3, ça varie entre 7, 14 et 8% mais avec un échantillonnage finalement assez faible (respectivement 6,6 et 4 papiers).


Si on regarde par journal, difficile de trouver une vérité générale aussi, même si on peut être tenté de dire qu'il y a une proportion plus forte de points au-dessus dans les IF inférieurs à 2.5 (dans les 60%), mais l'échantillonnage pour les IF supérieurs à 6 est aussi beaucoup plus faible... De plus, ils ne sont pas très au-dessus de la droite, ce qui veut dire qu'ils sont plutôt mieux cités que la moyenne des articles dans ces journaux, mais pas qu'ils sont très cités en valeur absolue (au-dessus de 10 citations/an en moyenne).

Pour le journal le plus utilisé, celui à IF = 5.5 (47 articles soit 27% du nombre de points), on est à 25% au-dessus de la droite. Il y en a 10% qu'on peut qualifier de "très cités".

Pour le 2ème plus utilisé (IF = 3.5) (17 articles), on est à 30%, mais seulement 5% au-dessus de la limite "très cité"...

 

 

Bref, pas vraiment de corrélation claire entre nombre de citations d'un article et journal dans lequel il est publié. Peut-être une indication que les outils bibliographiques sont efficaces et qu'un bon article qui fait avancer le schmilblick ne passera plus sous le radar s'il n'est publié "que" dans une revue "honnête". On pourrait aussi être tenté de dire, au vu des données, que pour la communauté, les articles qui servent sont plus dans les journaux "spécialisés" que dans les revues "généralistes", mais je surinterprète peut-être et il se peut également que, même si c'est vrai, ce ne soit qu'un biais lié au domaine scientifique observé (les biologistes ne publiant quasiment que dans des journaux d'IF élevés - en tout cas comparativement à ce qu'on a en science des matériaux-, il y a sûrement moins de distinguo).

 

Voila, je laisse les amateurs de big data ou les gens plus doués que moi pour automatiser des collectes de données (les "numériciens") faire ça sur un échantillon plus vaste si ça les amuse. Ou alors, donner des idées pour traiter/plotter les données... voire donner des liens vers des études similaires, j'imagine que ça a déjà du être fait en mieux ailleurs...

 

 

Merci à @JaromilD pour l'idée même si le résultat n'est pas très concluant (c'est peut-être ça la conclusion intéressante), et je renvoie vers Gaïa qui a fait des choses un peu similaires, sur l'IF et sur le h-index.

 

Je dis prout d'avance à ceux qui me diront que mes figures sont moches.

Partager cet article
Repost0

commentaires