2023

Livre blanc des données synthétiques

établissements & professionnels de santé
établissements d'enseignement
organismes de recherche
Partager

Contexte

Aujourd’hui, la recherche médicale accède plus facilement aux données de santé issues des soins grâce aux entrepôts de données de santé. Cet accès favorise des avancées majeures en prévention, diagnostic, traitement et suivi des patients. Toutefois, l’accès et l’utilisation de ces données à des fins de recherche doivent respecter des normes éthiques et légales strictes. Ces règles, en particulier celles sur la protection de la vie privée, encadrent les usages secondaires des données de santé. À cet égard, le référentiel relatif aux entrepôts de données de santé, publié par la CNIL, constitue un cadre essentiel garantissant la conformité des projets mobilisant ces données.

L’intelligence artificielle (IA) offre une alternative en générant des données synthétiques anonymes qui reproduisent les caractéristiques des jeux de données réelles, dont le degré de similarité peut être documenté. Ces données simulées permettent aux chercheurs d’exploiter des données de santé sans compromettre la confidentialité des informations réelles des patients, voire de gérer leur niveau de sensibilité pour l’institution elle-même, et ce afin de réaliser des projets de recherche épidémiologiques ou de développer de nouvelles approches d’intelligence artificielle. 

Ainsi, le Centre hospitalier de l'Université de Montréal (CHUM) et le Centre Hospitalier Universitaire de Nantes (CHUN) mettent en œuvre un projet pilote visant à étudier les facteurs de rupture d’anévrisme, en s’appuyant sur des données synthétiques. Le CHU de Nantes est précurseur et engagé dans la démarche de valorisation de son entrepôt de données de santé initié en 2019.

Le cas clinique retenu au centre de ce projet est un véritable enjeu de santé publique : les anévrismes intracrâniens sont des malformations de vaisseaux cérébraux qui peuvent se rompre et entraîner une hémorragie cérébrale. Ils représentent la troisième cause de mortalité cardiovasculaire en France, en touchant plus de 2 millions de personnes sans qu’elles en aient conscience. En cas d’anévrisme intracrânien rompu, environ 19 % des patients décèdent avant de recevoir des soins médicaux, 40 % des patients hospitalisés décèdent dans le mois suivant l'événement, et plus d'un tiers de ceux qui survivent présentent un handicap majeur. 

 

Objectif 

Le projet « Livre blanc des données synthétiques en santé » est porté par le Centre hospitalier de l'Université de Montréal (CHUM) et le Centre Hospitalier Universitaire de Nantes (CHUN). Il vise à créer un outil de gouvernance destiné aux responsables de traitement et fiduciaires de données de santé synthétiques pour mieux accompagner les professionnels de santé en IA au bénéfice des patients en présentant un cas d’usage pour la caractérisation des facteurs de rupture d’anévrisme intracrânien. 

En exploitant des jeux de données issus des hôpitaux participants, ce projet entend faciliter l’échange de données synthétiques anonymes, tout en garantissant le respect des réglementations en vigueur dans les deux pays distincts. En parallèle, il contribuera directement à l’amélioration des soins en affinant la compréhension des facteurs de rupture des anévrismes, permettant ainsi une prise en charge plus efficace des patients concernés.

 

Méthodologie et caractère innovant

Pour ce faire, le CHU de Nantes et le CHU de Montréal mettent, dans un premier temps, à l’épreuve plusieurs méthodes de génération de données synthétiques. Ils évaluent ensuite la conformité réglementaire des jeux de données produits notamment pour les échanger et les mettre à disposition. Le projet s’appuie sur le partage de jeux de données issus d’entrepôts de données de santé, en particulier concernant les patients porteurs d’anévrisme intracrânien Le projet permet de concrétiser le croisement de données issues de contextes hospitaliers et réglementaires différents. 

La phase suivante consiste à détecter les facteurs de rupture d’anévrisme dans les bases de données réelles du CHUM et du CHUN et dans les bases de données synthétiques. Enfin, les porteurs de projet rédigeront le Livre blanc des données synthétiques en s’appuyant sur les conclusions de ces analyses et sur une expertise juridique franco-québécoise. 

Lauréat de la seconde vague de l’appel à projets “IA et Santé” portée par le Fonds de recherche du Québec-Santé et le Health Data Hub, le projet “Livre blanc des données synthétiques en santé” bénéficie d’un accompagnement financier et technique pour la mise en opensource de briques d’intêret pour l’écosystème.

 

Résultat/livrable

Le principal livrable issu de ce projet sera un recueil de données sous forme de livre blanc, sous forme d’un notebook, disponible publiquement. Il fera aussi l’objet d’une publication sur les facteurs de rupture d’anévrisme et permettra de construire une librairie de référence en accès libre pour générer et valider les données synthétiques.

Chiffres clés

2 millions de personnes
porteuses d’anévrisme intracrânien