” Text mining of academic papers is close to impossible right now. “
Max Häussler – Bioinformatics researcher, UCSC
Devant l’explosion du nombre d’articles scientifiques publiés et l’augmentation exponentielle des capacités de calcul, le constat est sans appel : la manière dont nous lirons demain ces articles n’aura probablement plus rien à voir avec le fastidieux, lent et répétitif travail de lecture actuel et passera sans nul doute de plus en plus par l’utilisation de techniques intelligentes de text-mining. En décuplant nos capacités d’analyse, ces techniques permettent – et permettront encore davantage demain – de libérer la créativité et de faire émerger une innovation scientifique plus rapide et moins chère. Pour le moment, ces réjouissantes perspectives se heurtent toutefois à un obstacle de taille : le cartel des éditeurs scientifiques – l’une des industries les plus lucratives du monde, qui entend bien ne pas mettre en péril ses énormes rentes.
Du text-mining et de sa nécessité :
Le text-mining est une technologie qui a pour objectif d’obtenir très rapidement des informations clés et jusqu’à présent inconnues à partir d’une très grande quantité de textes – il s’agit ici de littérature biomédicale. Cette technologie est par nature pluri-disciplinaire empruntant notamment aux techniques de l’apprentissage automatique, de la linguistique et des statistiques.
L’objet de cet article n’est pas de constituer une étude approfondie et technique du text-mining mais il est tout de même nécessaire, pour la pleine compréhension du potentiel de cette technologie, d’en décrire les grandes étapes :
- Le recueil et la sélection des textes à analyser : cette première étape consiste à utiliser des algorithmes de recherche afin de télécharger automatiquement les abstracts d’intérêt depuis des bases d’articles scientifiques (comme PubMed, par exemple, qui a elle seule en référence 12 000 000 articles scientifiques). Une recherche sur la littérature grise pourra également être menée afin d’être le plus exhaustif possible.
- La préparation des textes à analyser : Cette étape aura pour objectif de mettre les textes à analyser dans une forme prévisible et analysable en fonction de la tâche que l’on souhaite accomplir. Il existe tout un ensemble de techniques afin de réaliser cette étape qui permettra notamment de supprimer le « bruit » du texte et de « tokeniser » les mots à l’intérieur des phrases.
- L’analyse des données issue des textes : L’analyse des données dépendra en grande partie de la préparation du texte. Différentes techniques de statistiques et de data science pourront être mis en œuvre : les machines à vecteurs de support, modèles de Markov cachés ou encore par exemple, les réseaux de neurones.
- La visualisation des données : La question de la visualisation des données est probablement plus importante que l’on pourrait le penser. En fonction des options choisies : tableaux ou modèles en 3D par exemple, les informations et méta-informations auxquelles aura accès l’utilisateur du modèle seront plus ou moins pertinentes et explicatives.
Le text-mining a déjà fait ses preuves en matière de recherche scientifique biomédicale : ainsi, il a entre autres été utilisé pour découvrir des associations entre protéines et pathologies ; pour comprendre les interactions entre protéines ou encore pour élucider le docking de certaines molécules médicamenteuses à leur cible thérapeutique. Pourtant, la plupart du temps, cette technologie n’est mise en œuvre que sur les abstracts des articles, ce qui a pour conséquence de diminuer considérablement sa puissance en termes de fiabilité des données obtenues ainsi que le nombre de ses applications.
Pourquoi, par conséquent, ne pas utiliser les millions d’articles scientifiques disponibles en ligne ? De nouvelles hypothèses de recherche pourraient être formulées, de nouvelles stratégies thérapeutiques pourraient être crées. Cela est technologiquement à porter de main mais les éditeurs scientifiques semblent pour le moment en avoir décidé autrement. Explications.
Des problèmes posés par les éditeurs scientifiques :
A leur émergence, à l’issue de la seconde guerre mondiale, les éditeurs scientifiques avaient une réelle utilité dans la diffusion de la science : en effet, les différentes sociétés savantes n’avaient que de faibles moyens pour diffuser les travaux et conclusions de leurs membres. A l’époque, la diffusion des articles publiés se faisaient à travers l’édition de revues papiers, qui présentaient un coût trop élevé pour la plupart des sociétés savantes. Depuis la naissance de cette industrie et en dépit des considérables modifications des moyens de transmission de la connaissance scientifique avec Internet, son business model n’a cependant pas du tout évolué, devenant désormais anachronique et portant désormais ses marges brutes à des pourcentages faisant passer les géants publicitaires en ligne comme Google ou Facebook pour des business peu rentables. Les éditeurs scientifiques sont en effet, la seule industrie du monde qui obtient la matière première (les articles scientifiques) gratuitement de la part de ses clients (les scientifiques du monde entier, dont les recherches sont la plupart du temps financées par de l’argent public) et dont la transformation (le peer-reviewing) est également mise en œuvre de manière bénévole par ses clients.
Paiement mis en place par les éditeurs scientifiques.
Ainsi, les éditeurs scientifiques ont mis en place un « étrange système de triple-paiement », permettant à des entités privées de capter de l’argent public destiné à la recherche et à l’enseignement. Les Etats financent les recherches menant à la rédaction des articles scientifiques, paient les salaires des scientifiques qui bénévolement participent au peer-reviewing et finalement paient encore une fois, à travers les abonnements des universités et laboratoires de recherche, pour avoir accès à la production des connaissances scientifiques qu’ils ont déjà financée par deux fois ! Un autre modèle, parallèle à celui-ci, se développe également depuis quelques années, celui de l’auteur-payeur dans lequel les chercheurs payent des frais de publication afin de rendre leurs travaux plus facilement accessibles aux lecteurs…nous dirigeons nous vers un système de quadruple paiement ?
Les conséquences délétères du système mis en place par les éditeurs scientifiques ne sont cependant pas uniquement financières mais impactent également la qualité des publications scientifiques produites et donc la validité de potentiels modèles d’intelligence artificielle basés sur les données de ces articles. Du business-model basé sur l’abonnement à des journaux découle la volonté pour les éditeurs de privilégier les découvertes spectaculaires et profondément innovantes aux travaux de confirmation, ce qui pousse certains chercheurs, poussés par la course à l’« impact factor », à frauder ou à publier de manière très précoce des résultats statistiquement peu consolidés : il s’agit là d’une des raisons de la crise de la reproductibilité que traverse actuellement la science et également de l’une des causes possibles de l’insuffisante de publication de résultats négatifs, et pourtant hautement informatifs : on peut ainsi estimer qu’un essai clinique sur deux ne donne lieu à aucune publication.
Enfin, et c’est ce point qui nous intéresse le plus dans cet article, les éditeurs scientifiques sont un frein au développement du text-mining sur les immenses bases d’articles qu’ils possèdent, ce qui a, in fine, un impact colossal sur notre connaissance et compréhension du monde ainsi que sur le développement de nouveaux médicaments. En effet, il est actuellement extrêmement difficile de réaliser du text-mining sur des articles scientifiques complets à grande échelle car cela n’est pas autorisé par les éditeurs, même lorsque l’on est titulaire d’un abonnement et que l’on a légalement le droit de lire les articles. Plusieurs pays ont légiféré afin que les équipes de recherche mettant en place du text-mining ne soient plus obligées de demander l’autorisation des éditeurs scientifiques. En réponse à ces évolutions légales, bénéficiant de leur situation oligopolistique, les éditeurs scientifiques ont mis en place des barrières technologiques tout à fait artificielles : ainsi, il est devenu impossible de télécharger des articles rapidement et de manière automatisée, le rythme maximal imposé étant généralement de 1 article toutes les 5 secondes, ce qui signifie qu’il faudrait environ 5 ans pour télécharger tous les articles relatifs à la recherche biomédicale. L’intérêt de ce système pour les éditeurs scientifiques est de pouvoir rançonner – le terme est fort mais c’est bien celui qui convient – les grandes entreprises pharmaceutiques qui souhaitent lever ces barrières techniques artificielles pour leur projet de recherche.
Le système actuel de publications scientifiques, nous l’avons montré, ne profite qu’à quelques firmes au dépend de très nombreux acteurs – chercheurs du monde entier et encore davantage lorsqu’ils travaillent depuis des pays pauvres, Etats et contribuables, industries de la santé et enfin, en bout de la chaîne, les patients ne bénéficiant pas du plein potentiel de la recherche biomédicale. Dans ces conditions, de nombreuses alternatives à ce modèle voient le jour, dont certaines sont très largement rendues possibles par la technologie.
Vers la disruption de l’édition scientifique ?
” On ne détruit réellement que ce qu’on remplace “
Napoléon III – 1848
Chaque innovation ne vient-elle pas initialement d’une forme de rébellion ? Cela est en tout cas particulièrement vrai lorsqu’il s’agit des différentes initiatives menées jusqu’à présent pour libérer le potentiel d’une science libre et ouverte, tant ces entreprises ont souvent pris la forme d’opérations de piraterie. Entre manifestes et pétitions, notamment l’appel au boycott lancé par le chercheur en mathématiques Timothy Gowers, s’appuyant sur le texte « The cost of knowledge », les mouvements de contestation menés par des scientifiques et les créations de plateformes open source comme https://arxiv.org/ ont été nombreux. Rares sont cependant les actions qui ont eu autant d’impact que celles d’Aaron Swartz, l’un des principaux théoriciens de l’open source et de la science ouverte, tragiquement acculé au suicide à 26 ans, à 1 mois d’un procès durant lequel il risquait 35 ans de réclusion pour avoir piraté 4,8 millions d’articles scientifiques ou bien sûr, celles d’Alexandra Elbakyan, la célèbre fondatrice du site Sci-Hub, permettant d’accéder gratuitement – et illégalement – à la majeure partie de la littérature scientifique.
Aaron Swartz et Alexandra Elbakyan
Plus récemment, les tenants du mouvement open source se sont adaptés au tournant radical du text-mining, à travers notamment le projet de Carl Malamud, visant à profiter d’une zone grise juridique pour proposer aux équipes de recherche académiques de miner la gigantesque base de 73 millions d’articles qu’il a constituée. Solution intéressante mais non pleinement aboutie, cette base de données n’étant pour le moment pas accessible par Internet pour des raisons juridiques, il est nécessaire de se déplacer en Inde, où elle est hébergée, pour y avoir accès.
Ces initiatives fonctionnent sur des formes plus ou moins légales de captation des articles après leur publication par des éditeurs scientifiques. Dans la perspective d’une alternative plus pérenne, l’idéal serait de remonter la chaîne de valeur et par conséquent de travailler en amont avec les chercheurs. L’avènement de la technologie blockchain – une technologie de stockage et d’échange d’informations ayant la particularité d’être décentralisée, transparente et par conséquent hautement sécurisée, sur laquelle de futurs articles de Resolving Pharma reviendront en détail – est ainsi pour beaucoup de chercheurs et de penseurs du sujet une formidable opportunité de remplacer définitivement les éditeurs scientifiques dans un système induisant davantage de justice et permettant la libération de l’information scientifique.
La transformation du système sera probablement lente – le prestige accordé par les chercheurs aux noms de grandes revues scientifiques appartenant à l’oligopole perdurera dans le temps – peut-être même qu’elle n’arrivera pas, mais la Blockchain a, si son implémentation est réussie, la capacité de répondre aux problématiques posées plus haut dans cet article de différentes manières :
Une plus juste répartition financière
Nous l’avons vu, le business model des éditeurs scientifiques est peu vertueux, c’est un euphémisme. A l’autre opposé, l’Open Access, en dépit de ses indéniables et prometteuses qualités, peut également poser certains problèmes, en étant parfois dénué de peer-reviewing. L’utilisation d’une cryptomonnaie dédiée au monde de l’édition scientifique pourrait supprimer le système de triple paiement, chaque acteur pouvant être payé à la juste valeur de sa contribution. L’institution d’un chercheur recevrait un certain montant de cryptomonnaie lorsque celui-ci publierait ainsi que lorsqu’il participerait au peer-reviewing d’un autre article. L’accès des institutions aux publications se ferait quant à lui à travers le paiement d’une somme en cryptomonnaie. En dehors des aspects financiers, les droits d’auteurs, auxquels renoncent actuellement les chercheurs, seraient inscrits automatiquement dans la blockchain pour chaque publication. Les institutions de recherche garderont ainsi le droit de décider à quel prix sera disponible le fruit de leur travail. Un système de ce type permettrait par exemple à quiconque souhaitant utiliser un outil de text-mining de payer une certaine somme de cette cryptomonnaie, qui reviendrait aux auteurs et reviewers des articles utilisés. Le text-mining à grande échelle serait alors devenu une commodité.
Un traçage des usages des lecteurs et la définition d’un réel « impact factor »
Actuellement, et même si l’on tente de dénombrer les citations des articles, l’usage réalisé des articles scientifiques est difficilement quantifiable, alors qu’il pourrait constituer une métrique intéressante pour les différents acteurs de l’écosystème de la recherche. La Blockchain permettrait de tracer précisément chaque transaction. Ce traçage des usages des lecteurs permettrait également d’amener une certaine forme de justice financière : on peut imaginer qu’à travers un Smart Contract, une simple lecture ne coûterait pas exactement la même quantité de cryptomonnaie que la citation de l’article. Il serait ainsi possible de quantifier le réel impact qu’aurait une publication et remplacer le système d’ « impact factor » par la distribution en temps réel de « tokens de réputation » aux scientifiques, qui peut par ailleurs être conçue de manière à ne pas décourager la publication de résultats négatifs (d’ailleurs, pour pallier à ce problème, des chercheurs ont mis en place une plateforme dédiée à la publication de résultats négatifs : https://www.negative-results.org/)
Avec le développement récent des Non-Fungible Tokens (NFT), nous pouvons même imaginer l’émergence demain d’un marché secondaire des articles scientifiques, qui seront ainsi échangés d’utilisateurs à utilisateurs, comme cela est déjà possible pour d’autres objets numériques (éléments de jeux vidéo, morceaux de musique, etc).
Un moyen de limiter la fraude
Actuellement, le système de peer-reviewing, en plus d’être particulièrement long (il s’écoule en moyenne 12 mois entre la soumission et la publication d’un article scientifique, contre deux semaines sur une plateforme comme utilisant la Blockchain comme ScienceMatters) est tout à fait opaque au lecteur final de l’article qui ne dispose ni du nom des chercheurs ayant pris part au processus, ni même des formes itératives chronologiques de l’article. La Blockchain pourrait permettre, par sa structure infalsifiable et chronologique, d’enregistrer ces différentes modifications. Il s’agit là d’un sujet qui mériterait à lui seul un autre article, mais la Blockchain permettrait également d’enregistrer les différentes données et métadonnées ayant conduit aux conclusions de l’article, qu’il s’agisse par exemple d’essais précliniques ou cliniques, et d’éviter ainsi la fraude tout en augmentant la reproductibilité.
Manuel Martin, l’un des co-fondateurs de Orvium, une plateforme de publication scientifique basée sur la Blockchain, estime ainsi : « by establishing a decentralized and competitive market, blockchain can help align goals and incentives for researchers, funding agencies, academic institutions, publishers, corporations and governments. »
L’utilisation du potentiel de l’intelligence artificielle dans l’exploitation des articles scientifiques est une opportunité de créer une réelle intelligence collective, de faire advenir une recherche plus rapide et efficiente et probablement de soigner de nombreux patients à travers le monde. Le verrou qu’il nous reste à faire sauter n’est pas technologique mais organisationnel. Eliminer les éditeurs scientifiques de l’équation sera ainsi un combat aussi âpre que nécessaire, qui devrait réunir chercheurs, Etats et grandes entreprises pharmaceutiques, dont les intérêts s’alignent. Si l’on peut être relativement pessimiste quant aux capacités de coopération de ces différents acteurs, on ne peut pas en revanche émettre de doutes quant à la fantastique puissance de transparence de la Blockchain qui, combinée à la détermination de quelques entrepreneurs comme les fondateurs des plateformes Pluto, Scienceroot, ScienceMatters ou Orvium, constituera un outil déterminant dans ce combat pour révolutionner l’accès aux connaissances scientifiques.
Les propos tenus et les opinions exprimées dans cet article n’engagent que leur auteur. Les autres auteurs prenant part à Resolving Pharma n’y sont pas associés.
Pour aller plus loin :
-
Stephen Buranyi ; Is the staggeringly profitable business of scientific publishing bad for science? ; The Guardian ; 27/06/2017; https://www.theguardian.com/science/2017/jun/27/profitable-business-scientific-publishing-bad-for-science
-
The Cost of Knowledge : https://gowers.files.wordpress.com/2012/02/elsevierstatementfinal.pdf
-
Priyanka Pulla ; The plan to mine the world’s research papers ; Nature ; Volume 571 ; 18/07/2019 ; 316-318
-
Bérénice Magistretti ; Disrupting the world of science publishing ; TechCrunch ; 27/11/2016 https://techcrunch.com/2016/11/27/disrupting-the-world-of-science-publishing/
-
Daniele Fanelli ; Opinion : Is science really facing a reproducibility crisis, and do we need it to ? ; PNAS March 13, 2018 115 (11) 2628-2631; first published March 12, 2018; https://doi.org/10.1073/pnas.1708272114
-
D.A. Eisner ; Reproducibility of science: Fraud, impact factors and carelessness ; Journal of Molecular and Cellular Cardiology, Volume 114, January 2018, Pages 364-368
-
Chris Hartgerink ; Elsevier stopped me doing my research ; 16 Novembre 2015 ; https://chjh.nl/elsevier-stopped-me-doing-my-research/
-
Joris van Rossum, The blockchain and its potential and academic publishing, Information Services & Use 38 (2018) 95-98 ; IOS Press
-
Douglas Heaven, Bitcoin for biological literature, Nature, 7/02/2019/ Volume 566
-
Manuel Martin ; Reinvent scientific publishing with blockchain technology ; https://www.statnews.com/2018/12/21/reinvent-scientific-publishing-blockchain/
-
Sylvie Benzoni-Gavage ; The Conversation ; Comment les scientifiques s’organisent pour s’affranchir des aspects commerciaux des revues ; https://theconversation.com/comment-les-scientifiques-sorganisent-pour-saffranchir-des-aspects-commerciaux-des-revues-158486?utm_term=Autofeed&utm_medium=Social&utm_source=LinkedIn#Echobox=1620033557
Ces articles pourraient vous intéresser
Web3 et Recherche Scientifique, Interview de Kamil Ramdani – Nosty
Introduction à la DeSci
Interview de Christophe Baron, Fondateur de Louis App : « Des NFTs pour favoriser la prévention des maladies et la longévité »
L’intelligence artificielle contre les infections bactériennes : le cas de bactériophages
Catégories
Pour s’inscrire gratuitement à la Newsletter mensuelle, cliquez ici.
Vous souhaitez prendre part à la rédaction d’articles de la Newsletter ? Vous souhaitez participer à un projet entrepreneurial sur ces thématiques ?
Contactez-nous à l’adresse hello@resolving-pharma.com ! Rejoignez notre groupe LinkedIn !