Catégories
Recherche exploratoire

Données de santé : introduction à la révolution des données synthétiques

Les données, parfois considérées comme l’or noir du XXIème siècle, constituent effectivement le carburant indispensable des modèles d’intelligence artificielle, et sont déjà très largement utilisées par l’Industrie Pharmaceutique. Cependant, et notamment du fait du domaine particulièrement sensible de la santé, leur utilisation connaît plusieurs limitations. Les données synthétiques constitueront-elles l’une des solutions permettant la résolution de ces problèmes ?

Qu’est-ce que les données synthétiques et pourquoi les utiliser ?

Les données synthétiques sont des données créées artificiellement par l’utilisation d’algorithmes génératifs, plutôt que recueillies lors d’évènements réels. La technique a été initialement développée dans les années 90, afin de travailler sur les données du recensement américain sans divulguer les informations personnelles des répondants, tout en conservant des donnés de grande qualité et à grande échelle.

Ces données sont généralement fabriquées à partir de véritables données, issues par exemple des dossiers patients dans le cas des données de santé, et préservent les distributions statistiques de celles-ci. Ainsi, il est théoriquement possible de générer des cohortes de patients virtuels, n’ayant aucune identité réelle mais correspondant statistiquement en tous points aux cohortes réelles. Des chercheurs ont notamment réussi à synthétiser des dossiers patients virtuels à partir de données démographiques et épidémiologiques accessibles publiquement. Nous parlons alors dans ce cas de « fully synthetic data » par opposition aux « partially synthetic data » qui sont des données synthétiques fabriquées afin de, par exemple, remplacer les données manquantes de datasets recueillies classiquement.

***

Actuellement, et en dépit d’initiatives diverses et variées – comme le Health Data Hub en France, sur lequel nous aurons l’occasion de revenir dans d’autres articles – visant à démocratiser leur usage, de nombreux problèmes limitent encore l’utilisation optimale et massive des données patient. Les données synthétiques sont l’une des solutions qu’il est possible de mettre en face afin d’y répondre.

  • La confidentialité des données de santé :

Naturellement, les données de santé sont particulièrement sensibles en matière de confidentialité. La préservation de l’anonymat des patients induit un certain nombre de problématiques d’accessibilité et de coût de traitement des données. De nombreux acteurs, telles les industries pharmaceutiques, peinent à obtenir ces données et lorsqu’ils réussissent à y accéder, leur traitement induit des dépenses réglementaires et de cyber sécurisation importantes. Les délais d’accès sont également souvent extrêmement longs, ce qui ralentit les projets de recherche. Dans le cas de certaines bases, il est parfois réglementairement imposé de s’offrir les services d’une entreprise tierce, accréditée à manipuler ces données.

Pour permettre leur utilisation, les données patient sont généralement anonymisées à l’aide de différentes méthodes : la suppression des variables identifiantes ; leur modification par ajout de bruit ou par le groupement des variables catégorielles, afin d’éviter que certaines catégories ne contiennent que trop peu d’individus. L’efficacité de ces méthodes a cependant été très régulièrement remise en question par des études montrant qu’il était possible de remonter à l’identité des patient, en effectuant notamment des appariements (probabilistes ou déterministes) avec d’autres bases de données. La génération de données synthétiques peut, dans ce contexte, être utilisée comme une alternative sûre et facile d’utilisation.

  • La qualité des données :

La technique de la génération des données synthétiques est couramment mise en œuvre afin de compléter des données manquantes dans des datasets de données réelles, qu’il est impossible ou très couteux de recueillir à nouveau. Ces nouvelles données sont représentatives de la distribution statistique de ces variables dans le dataset de données réelles, elles permettent d’améliorer la qualité des datasets et la pertinence des algorithmes qui les utilisent.

  • Le volume trop faible des datasets de données de santé pour pouvoir être exploité par intelligence artificielle :

L’entraînement des modèles de Machine ou Deep Learning requiert parfois de larges volumes de données afin d’obtenir des résultats de qualité satisfaisante : en effet, il est couramment accepté qu’il faut en général au minimum environ 10 fois plus d’exemples que de degrés de libertés du modèle. Or, lorsque l’on utilise le Machine Learning en santé, il est courant que le volume de données ne permette pas la mise en production et l’obtention de résultats de qualité satisfaisante, dans le cas par exemple de pathologies rares peu documentées, ou de sous-populations représentant peu d’individus. L’utilisation de données synthétiques fait partie, dans ce cas de figure, de l’arsenal technique à la disposition des data scientists.

L’utilisation de données synthétiques constitue un champ industriel naissant, dont certains spécialistes pensent qu’il prendra part à dépasser certaines limites actuelles de l’IA. Parmi les différents avantages apportés par les données synthétiques dans le champ de l’IA, nous pouvons notamment citer : le fait qu’il est rapide et peu coûteux de créer autant de données que l’on souhaite, sans avoir besoin de les étiqueter à la main comme cela est souvent le cas pour les données réelles, mais aussi que ces données peuvent être modifiées à plusieurs reprises afin de rendre le modèle le plus efficace possible dans son traitement de données réelles.

Les techniques de génération de données synthétiques

La génération des données synthétiques implique plusieurs phases :

  • La préparation des données de l’échantillon à partir duquel, le cas échéant, les données synthétiques seront générées : afin d’obtenir un résultat de qualité, il est nécessaire de nettoyer et d’harmoniser les données si elles proviennent de sources différentes
  • La génération à proprement parler des données synthétiques, dont nous allons détailler ci-dessous certaines techniques
  • La vérification et l’évaluation de la protection de la confidentialité offerte par les données synthétiques

Figure 1 – Schéma de génération de données synthétiques

Les méthodes de génération de données sont nombreuses et le choix de leur utilisation dépend notamment de l’objectif, du type de données que nous souhaitons créer ainsi que du contexte : faut-il créer des données à partir de données déjà existantes et ainsi suivre leurs distributions statistiques ? Ou des données pleinement virtuelles suivant des règles leur permettant d’être réalistes (comme du texte par exemple) ? Dans le cas des méthodes « data driven », on tire profit de données existantes : des modèles génératifs de Deep Learning seront utilisés. Dans le cas des méthodes « process-driven », permettant notamment à des modèles mathématiques de générer des données à partir de processus physiques sous-jacents, il s’agira de ce que l’on appelle des modélisations à base d’agents.

De manière plus opérationnelle, les données synthétiques sont généralement créées en langage Python – très connu des Data Scientists. Différentes librairies Python sont utilisées, comme : Scikit-Learn, SymPy, Pydbgen et VirtualDataLab. Un prochain article de Resolving Pharma fera suite à cette introduction en présentant techniquement comment créer des données de santé synthétiques à l’aide de ces librairies.

***
L’évaluation des données synthétiques

Il est courant d’évaluer les données patient anonymisées selon deux critères principaux : d’une part la qualité de l’utilisation qu’il est possible d’en faire, et d’autre part la qualité de la confidentialité que l’anonymisation a permis d’obtenir. Il a été démontré que plus des données étaient correctement anonymisées et plus l’utilisation possible était limitée, puisque des features importantes mais identifiantes sont supprimées ou que l’on perd en précision en regroupant des classes de valeurs. Il y a donc un équilibre à trouver entre les deux, en fonction de la destination des données.

Les données synthétiques sont quant à elles évaluées selon trois critères principaux :

  • La fidélité des données par rapport à l’échantillon de base
  • La fidélité des données par rapport à la distribution de la population générale
  • Le niveau de confidentialité permis par ces données.

Différentes méthodes et métriques existent pour évaluer ces critères :  

En permettant de s’assurer que la qualité des données générées est suffisante pour l’utilisation qui doit en être faite, l’évaluation est un élément indispensable et central du processus de génération de données synthétiques.

Les données synthétiques, quels cas d’usage pour l’industrie pharmaceutique ?

Il y a quelques mois, les entreprises Accenture Life Sciences et Phesi, deux sociétés de services aux entreprises pharmaceutiques, ont corédigé un rapport enjoignant ces dernières à intégrer davantage les données synthétiques à leurs activités. Le cas d’usage mentionné dans ce rapport est celui des bras de contrôle synthétiques qui pourtant utilise généralement des données réelles, issues de différents essais cliniques et retravaillés statistiquement.

En dehors des frontières de l’industrie pharmaceutique, dans le monde de la santé, les données synthétiques sont déjà utilisées afin d’entraîner des modèles de reconnaissance visuelle, en imagerie notamment : les chercheurs peuvent ajouter de manière artificielle des pathologies sur des clichés de patients sains et donc de tester leurs algorithmes sur leurs capacités à détecter ces pathologies. Sur le modèle de ce use-case, il est aussi possible de créer des données de coupes histologiques qui pourraient servir à entraîner des modèles d’IA en préclinique.

***

A n’en pas douter, l’industrie bourgeonnante des données synthétiques est bien partie pour bousculer l’intelligence artificielle telle que nous la connaissons actuellement et son utilisation dans l’industrie de la santé qui a la particularité de manipuler des données sensibles et difficilement accessibles. Nous pouvons imaginer par exemple un écosystème où il sera plus facile et efficace pour les industriels de créer leurs propres données synthétiques, que de chercher à avoir accès aux bases de données médicales ou médico-administratives. Cette technologie serait alors l’une de celles qui modifieraient l’organisation de l’innovation dans les industries de santé, en offrant une place moins centrale aux données réelles.


Pour aller plus loin :

Ces articles pourraient vous intéresser

Vitalik_Buterin_Scientist_Landscape

Introduction à la DeSci

Ou comment la Science du futur est en train de naître sous vos yeux « [DeSci] transformed my research impact from a low-impact virology article every other year to saving the…
Illustration In Silico

Vers des essais cliniques virtuels ?

Les essais cliniques font partie des étapes les plus critiques et les plus coûteuses dans le développement du médicament. Ils sont fortement régulés par les différentes agences de santé internationales,…

Pour s’inscrire gratuitement à la Newsletter mensuelle, cliquez ici.

Vous souhaitez prendre part à la rédaction d’articles de la Newsletter ? Vous souhaitez participer à un projet entrepreneurial sur ces thématiques ?

Contactez-nous à l’adresse hello@resolving-pharma.com ! Rejoignez notre groupe LinkedIn !

Par Alexandre Demailly

Pharmacien diplômé de l’Université de Lille, en France, Alexandre a poursuivi ses études en médicoéconomie à l’Université de Paris-Dauphine puis a développé sa connaissance de l’Intelligence Artificielle en Santé à l’Université de Paris.
Passionné par l’innovation en santé et l’entrepreneuriat, Alexandre est actuellement impliqué dans deux biotechs early-stage dans le domaine des maladies neurodégénératives.