2024

EHDEN

autres
Partager

Contexte

La base principale du SNDS est une base médico-administrative très riche, mais complexe et qui reste encore sous exploitée. Une des difficultés à son utilisation est le temps nécessaire pour monter en compétences sur le schéma de données et la compréhension des biais et limites de ces données. Standardiser la base principale du SNDS dans un modèle de données commun, en s’appuyant sur des normes de représentation et de stockage, permet de simplifier et d’élargir son utilisation pour des projets de recherche nationaux et européens. Cette standardisation est par exemple très bénéfique dans le cas de maladies rares, puisque les pays disposent individuellement d’un volume de données trop réduit pour mener des recherches. Standardiser les données permet d’agréger les résultats de plusieurs bases de données et ainsi mener des études sur des cohortes plus larges. 

 

Objectif

En 2020, le Health Data Hub a été lauréat d’un appel à projets porté par EHDEN. Le projet retenu visait à transformer le SNDS Fast-Track (base relative aux patients atteints de la Covid-19 sur 2019-2020) au format OMOP-CDM (Observational medical outcomes partnership - Common Data Model). Ce format, centré sur le patient, permet de passer d’une base comportant plus de 180 tables pour la base principale du SNDS, à moins de 20 tables métiers (moins de 40 tables en comptant les terminologies et métadonnées). Cela permet d’analyser plus facilement les parcours de soins, quelle que soit la provenance géographique ou administrative de la donnée.

 

Méthodologie

La standardisation de la base principale du SNDS s’est déclinée en trois étapes principales. Tout d’abord, l’alignement syntaxique consiste à homogénéiser les structures des bases de données et trouver les correspondances entre les schémas de données source et cible. Par exemple, dans le cadre d’une standardisation au format OMOP-CDM, cela consiste à identifier où sont stockées les informations du patient dans la base de données source, et à les reporter dans la table “PERSON” du format cible. L’alignement syntaxique nécessite une connaissance très fine de la base principale du SNDS et plusieurs experts du Health Data Hub ont été mobilisés sur ce projet. 

La seconde étape consiste à aligner les terminologies françaises vers des terminologies standards. Par exemple, il s’agira de trouver l’équivalent dans une terminologie internationale, telle que la SNOMED-CT, du code "chirurgie de la hanche" selon une nomenclature française. À titre d’illustration, il y a plus de 70 000 codes sur les procédures, sur les médicaments et sur la biologie en France. Ce travail d’alignement de terminologie a été effectué avec l’aide d’internes en médecine. Il a été choisi pour les codes de procédures médicales d’aligner prioritairement les procédures les plus fréquemment conduites en ville et à l’hôpital sur les années 2019 et 2020. Cela représente près de 700 codes sur 9 000. Les codes procédures restants ont été alignés au niveau du chapitre supérieur. Chaque alignement de codes ou chapitres a été relu et corrigé par un second interne en médecine. 

Enfin, une vérification de la qualité de la standardisation a été nécessaire. OHDSI propose plus de 3 000 tests de qualité permettant de vérifier, par exemple, qu’une date de fin de soins est bien postérieure à la date de début ou encore si le nombre de femmes ayant un cancer de la prostate ne dépasse pas un seuil défini. Dans le cas d’une valeur trop élevée, soit il y a une erreur dans l’alignement syntaxique ou sémantique, soit l’erreur provient de la base de données source. Ces résultats de qualité ont été transmis et discutés avec EHDEN afin d’améliorer la transformation.

 

Résultat(s)

Grâce à ce travail, les données de la base principale du SNDS des années 2019 et 2020 ont été mises au standard OMOP-CDM, tandis que la documentation décrivant le processus de standardisation des données ainsi que les scripts créés ont été ouverts en open source. 

Les résultats ont notamment été dévoilés lors de l’événement du 14 décembre 2022 organisé par le Health Data Hub, dont le replay est disponible ici. La documentation de la transformation se trouve sur la documentation collaborative SNDS et les scripts de transformation sont sur Gitlab. Ces travaux ont également été présentés en 2022 à des congrès internationaux et européens tels que les congrès OHDSI (Rotterdam et Washington DC). À nouveau lauréat de l’appel à projets du réseau EHDEN en 2021, le Health Data Hub a poursuivi les travaux de standardisation de la base principale du SNDS, permettant de couvrir une profondeur de données plus importante (2015-2021). Ces résultats pourront également contribuer au projet visant à créer et tester une version beta de l'Espace européen des données de santé (Health Data@EU Pilot), qui s’intéresse entre autres à la standardisation des données de santé. 

À noter que ce travail a été rendu possible avec l’aide de l’Assurance Maladie qui a extrait les données.

 

EHDEN

 

Chiffres clés

Moins de 20
tables sur la base principale du SNDS
Contre 180
tables avant