Résumé automatique multicentrique des comptes rendus médicaux (cas d’usage 3 projet PARTAGES)

Objectif(s) de la recherche et intérêt pour la santé publique

Finalité de l'étude

Recherche, étude, évaluation

Objectifs poursuivis

Prise en charge des patients

Autre

Domaines médicaux investigués

Allergologie

Anatomie cytologie

Anesthésiologie-Réanimation

Biologie

Cancérologie

Cardiologie

Déficiences et handicaps

Dermatologie, vénérologie

Endocrinologie et métabolisme

Gastro-entérologie et hépatologie

Gériatrie

Gynécologie obstétrique

Hématologie

Immunologie

Maladies infectieuses

Maladies rares

Médecine interne

Bénéfices attendus

Contexte de l’étude :
Une part importante du temps médical est absorbée par la documentation clinique. En pratique ambulatoire, pour une heure de temps clinique direct avec le patient, les médecins consacrent près de deux heures supplémentaires au dossier informatisé et aux tâches administratives. Dans ce contexte, les modèles de langage suscitent un intérêt croissant pour l’aide à la rédaction clinique, notamment pour la synthèse automatique de documents médicaux. Malgré ces avancées, plusieurs limites persistent : la qualité des résumés doit être évaluée avec soin (fidélité au document source, informations essentielles, robustesse, risque d’hallucinations) et la généralisation des modèles entre établissements reste difficile en raison des différences de formats et de pratiques rédactionnelles.
Le projet PARTAGES vise à répondre à ces enjeux en développant un modèle de résumé automatique open source, adaptable à plusieurs établissements, entraîné à partir de données fictives et évalué sur des données de vie réelle au moyen d’une plateforme distribuée installée chez chaque partenaire. Cette approche permet de mutualiser le développement méthodologique tout en évitant les transferts de données sensibles entre établissements.

Objectif principal : Développer et évaluer un modèle open source de résumé automatique de comptes rendus médicaux, en particulier pour l’assistance à la rédaction de la conclusion, adapté à une utilisation multi-établissements et compatible avec une évaluation distribuée sur données de vie réelle.
Objectif secondaires : Les objectifs secondaires sont d’étudier l’apport des données fictives utilisées pour le développement initial, d’évaluer différentes approches de modélisation, notamment par prompting et fine-tuning de modèles de type LLM, d’évaluer la robustesse des modèles sur des comptes rendus issus de plusieurs établissements, et de produire un modèle, un code open source, une documentation méthodologique et des résultats d’évaluation reproductibles.

Méthode : Le cas d’usage « Complétion » du projet PARTAGES ne nécessite pas d’annotation manuelle du contenu cible, mais requiert une préparation préalable des données locales avant leur dépôt sur le nœud d’évaluation. Les sections « corps du texte » et « conclusion » doivent être séparées dans des fichiers distincts. Lorsque des traitements spécifiques ont été appliqués, notamment de type OCR, ceux-ci doivent être documentés, en veillant idéalement à conserver une répartition représentative entre comptes rendus OCRisés et non OCRisés. Pour chaque document du jeu de données, le nom de fichier doit également indiquer la strate d’appartenance (par exemple année, sexe ou tranche d’âge), et, si possible, la fréquence de chaque strate dans la population documentaire globale de l’établissement doit être précisée.
Le projet vise à évaluer des modèles de résumé automatique capables de générer une conclusion pertinente, structurée et cliniquement correcte à partir du contenu d’un compte rendu médical dont la conclusion a été retirée. La conclusion générée est ensuite comparée à la conclusion de référence du document. Afin de permettre une évaluation fine des informations médicales, des faits atomiques — c’est-à-dire des énoncés courts et indépendants — sont extraits des conclusions générées et de référence à l’aide de modèles de langage spécialisés. La comparaison bidirectionnelle de ces faits permet de calculer différentes métriques portant notamment sur la factualité clinique, l’exhaustivité des informations restituées et la présence d’hallucinations. Dans un second temps, des outils d’extraction d’entités nommées pourront être utilisés afin d’identifier et normaliser les concepts médicaux présents dans les faits atomiques (symptômes, pathologies, traitements, etc.), et d’affiner les métriques selon la nature des concepts évalués.
Les approches étudiées incluent des modèles de type LLM, des stratégies de prompting, de fine-tuning sur données fictives, ainsi que des pipelines open source développés dans le cadre du projet. Le développement initial repose principalement sur des données fictives et des ressources de calcul dédiées, tandis que d’éventuels affinages sur données de vie réelle pourront être réalisés localement à l’AP-HP, sans partage ultérieur des données ni des modèles entraînés sur ces données sensibles.

Population : L’étude porte sur des comptes rendus médicaux textuels comportant une conclusion identifiable. Bien que la conclusion ne constitue pas à proprement parler une synthèse exhaustive du document, elle en reprend généralement les informations essentielles : elle constitue donc un proxy pertinent pour l’évaluation de tâches de résumé automatique.
Trois ensembles documentaires sont mobilisés :
1. Comptes rendus fictifs PARHAF produits dans le cadre du projet PARTAGES, pré-traités pour délimiter la conclusion et le reste du texte, et utilisés pour le développement initial du modèle.
- Volume attendu : pool général d’environ 850 comptes rendus fictifs.
2. Comptes rendus de vie réelle de l’AP-HP présents dans l’EDS de l’AP-HP, pseudonymisés et pré-traités pour délimiter la conclusion et le reste du texte, utilisés pour l’affinage local de certains modèles dans le cadre du projet autorisé correspondant.
- Population ciblée : environ 20 millions de comptes rendus cliniques, pour environ 10 millions de patients, échantillonnés à environ 1000 comptes-rendus.
3. Comptes rendus de vie réelle des établissements partenaires, pseudonymisés et utilisés localement pour l’évaluation distribuée des modèles.

Volume attendu pour l’évaluation du cas d’usage résumé automatique :
• minimum : 100 comptes rendus par établissement
• idéal : 400 comptes rendus par établissement
• maximum : 1000 comptes rendus par établissement

Le projet PARTAGES est un projet d’ampleur nationale dont le mode d'organisation entre les partenaires et implique la présence d'une multitude d'établissements de santé évaluateurs (à la fois responsables de la mise en œuvre et destinataires des données). Le détail de l'architecture du projet est décrit dans le protocole scientifique.

Données utilisées

Catégories de données utilisées

Informations relatives aux bénéficiaires de soins et de prestations médico-sociales

Informations relatives à la prise en charge sanitaire, médico-sociale et financière associées à chaque bénéficiaire

Informations relatives aux pathologies des personnes concernées

Informations recueillies à l'occasion d'activités de prévention, de diagnostic, de soins ou de suivi social et médico-social

Informations relatives à la santé, aux conditions sociales, environnementales, aux habitudes de vie et au contexte socio-économique des personnes concernées

Source de données utilisées

Autre

Autre(s) source(s) de donnée(s) mobilisée(s)

Dossiers Médicaux

Appariement entre les sources de données mobilisées

Non

Variables sensibles utilisées

Aucune

Recours au numéro d'identification des professionnels de santé

Non

Plateforme utilisée pour l'analyse des données

Autre

Acteurs finançant et participant à l'étude

Responsable(s) de traitement

Type de responsable de traitement 1

Etablissement public de santé (dont fédération)

Responsable de traitement 1

ASSISTANCE PUBLIQUE DES HOPITAUX DE PARIS

33 Boulevard Diderot 75012 Paris 75012 Paris France

Localisation du responsable de traitement 1

Dans l'UE

Représentant du responsable de traitement 1

Caroline GERMAIN

caroline.germain@aphp.fr

Calendrier du projet

Date de début : 01/10/2026 – Date de fin : 30/06/2027 Durée de l'étude : 10

Etape 1 : Dépôt du projet

02/06/2026

Base légale pour accéder aux données

Encadrement réglementaire

Méthodologie de référence 004

Durée de conservation aux fins du projet (en années)

Existence d'une prise de décision automatisée

Non

Fondement juridique

Article 6 du RGPD (Licéité du traitement)

(1)(e) exécution d’une mission d’intérêt public

Article 9 du RGPD (Exception permettant de traiter des données de santé)

(2)(j) archives, recherche scientifique ou historique, ou statistiques

Transfert de données personnelles vers un pays hors UE

Non

Droits des personnes

En plus de la remise d'une note d'information par les établissements de santé évaluateur à destination de leurs patients, les informations relatives au projet PARTAGES seront publiées sur le portail de transparence sur le site des établissements évaluateurs concernés.
L'AP-HP, en tant que responsable de traitement, s'assure que les personnes concernées sont informées conformément à la MR-004 de la CNIL. L'AP-HP détermine le contenu de l'information à transmettre aux personnes concernées. Les modalités précises de remise de l'information relèvent néanmoins du cadre mis en place par chaque établissement évaluateur pour l’usage secondaire de ses données. En effet, le projet PARTAGES repose sur la sollicitation des entrepôts de données de santé des établissements participants, lesquels disposent déjà de circuits d'information éprouvés (portails de transparence). Chaque établissement évaluateur, par le biais de son portail de transparence ou d’une note d’information individuelle dédiée (voir le modèle soumis en annexe), est chargé d’informer les personnes concernées de la réutilisation de leurs données personnelles dans le cadre de cette recherche. Cette responsabilité sera écrite dans le contrat de sous-traitance établi entre l'AP-HP et chaque établissement évaluateur. Ce même contrat précisera que l'établissement évaluateur sera désigné comme point de contact privilégié des personnes concernées pour l'exercice de leurs droits. Ce schéma est optimal aussi bien du point de vue de la confidentialité médicale que d'un point de vue efficacité, l'AP-HP n'ayant pas accès aux données de participants dont les comptes-rendus ont été sélectionnés. Bien entendu, le même schéma est en vigueur pour l'AP-HP concernant ses propres patients.

Délégué à la protection des données

ASSISTANCE PUBLIQUE DES HOPITAUX DE PARIS - Direction des services numériques

33 Boulevard de Picpus 75012 Paris 75012 Paris France

donatienne.blin@aphp.fr