EPICODIAB : développement d'un algorithme de typage du diabète dans le SNDS à partir d’une cohorte de patients appariée aux dossiers médicaux électroniques (EMR)
Objectifs de l’algorithme
L’algorithme EPICODIAB est une régression logistique pénalisée LASSO permettant de distinguer le type de diabète (type 1 (DT1) versus type 2 (DT2)) chez les adultes atteints de diabète dans le SNDS.
L’algorithme a été développé sur une cohorte de patients diabétiques identifiée dans des dossiers médicaux électroniques (EMR IQVIA) et appariée au SNDS sur la période 2010-2019. Le type de diabète établi par le médecin généraliste dans les EMR a constitué la référence.
La population utilisée pour développer l'algorithme était composée de patients adultes vivant avec un diabète (conformément à l'algorithme de cartographie du diabète), affiliés au régime général en France métropolitaine, à l'exclusion des patients atteints de diabète gestationnel (code CIM-10 024) et des patients des DOM-TOM.
Auteur(s)
Domaine médical
Méthodologie
Source de données et population
Les données issues des dossiers médicaux électroniques (EMR IQVIA) d'un réseau de médecins généralistes français (hors DOM-TOM) ont été appariées de manière probabiliste avec le SNDS. La base EMR contient des informations sur les diagnostics associés aux consultations et aux prescriptions des médecins, fournissant ainsi des informations sur le type de diabète. Une cohorte de patients adultes atteints de diabète a été identifiée dans la base de données EMR sur la période 2010-2018. Les données SNDS ont été extraites de 2009 à 2019 pour les patients appariés. Les patients dont le diabète n’a pas été retrouvé dans les données SNDS (conformément à l'algorithme de cartographie du diabète), atteints de diabète gestationnel (code CIM-10 024), ou non affiliés au régime général ont été exclus.
Suivi
Les patients ont été suivis à partir de la date de la première identification de leur diabète dans le SNDS jusqu'au décès, à la perte de suivi ou le 31 décembre 2019. La date d’identification du diabète était le premier critère entre une hospitalisation pour diabète, une hospitalisation pour une complication du diabète avec un diagnostic associé de diabète, une affection longue durée (ALD) pour diabète, ou une délivrance de traitements antidiabétiques suivie de deux autres délivrances sur 12 mois (1 autre en cas de grand conditionnement).
Construction des prédicteurs
Après une revue de la littérature et une présélection basée sur l'avis d'experts, environ 200 prédicteurs ont été dérivés des données du SNDS pour aider à discriminer le DT1 du DT2. Les prédicteurs comprenaient des données socio-démographiques, des affections longue durée, des comorbidités, des hospitalisations et des remboursements de traitements, dispositifs médicaux, tests biologiques, procédures médicales et consultations. La date de fin de suivi des patients a été choisie comme la date de référence pour la collecte rétrospective des prédicteurs. Ceux-ci ont ainsi été collectés sur des périodes de 1 à 5 ans avant la date de fin de suivi.
Division du jeu de données
La cohorte a été divisée aléatoirement en un ensemble d'entraînement (80%) [pour la dérivation du modèle] et un ensemble de test (20%) [pour évaluer les performances du modèle]. L'ensemble d'entraînement a ensuite été divisé en un ensemble de développement (80%) [pour la validation croisée] et un ensemble d'ajustement (20%) [utilisé pour ajuster le seuil de coupure de la probabilité d’être DT1 (0,5 par défaut)].
Entrainement des modèles et validation
Plusieurs algorithmes de machine learning (régressions logistiques pénalisées, RandomForest, XGBoost) ont été entraînés et optimisés par une procédure de validation croisée de type k-fold avec k=10, en utilisant le F1-score comme métrique d’optimisation. Le modèle final a été sélectionné comme celui ayant les meilleures performances sur le jeu test pour la prédiction du DT1, selon la métrique F1-score.
Résultats
Une cohorte de 40 774 personnes atteintes de diabète a été constituée, comprenant 39 122 (95,9%) de DT2 et 1 652 (4,1%) de DT1. L'ensemble de données d'entraînement (80% de la population totale) comprenait 26 095 patients pour le développement (1 059 (4,1%) de DT1 et 25 036 (95,9%) de DT2) et 6 524 patients pour l’ajustement. L'ensemble de données de test (20% de la population totale) contenait 8 155 patients.
La régression logistique pénalisée LASSO avec un seuil de coupure de 0,5 a obtenu les meilleures performances (F1: 0,79) sur l'ensemble de test. Celle-ci a retenu 66 variables, dont la dérivation est détaillée dans des spécifications. Le modèle s’écrit :
logit (Proba(DT1 | X))=intercept + ∑ βi xi, avec β le vecteur de coefficients et X la matrice de covariables. Un coefficient positif favorise le DT1. Lorsque la probabilité prédite d’être DT1 est ≥ 0.5, le patient est catégorisé DT1.
Langage de programmation
Données utilisées
Données d'application
L’algorithme a été entraîné sur des données EMR et SNDS appariées issues du projet EpiCoDiab (2010-2019).
Validation
L’algorithme a été validé sur le jeu test de la cohorte EMR-SNDS appariée. Les performances obtenues sur le jeu test sont affichées dans le tableau suivant. La régression logistique pénalisée LASSO est le modèle final sélectionné.
Limites
Il convient de noter que l'analyse des erreurs commises par le modèle a montré que les patients présentant des caractéristiques intermédiaires entre le DT1 et le DT2 pourraient être mal classés (par exemple, des patients plus âgés atteints de DT1, ou des patients atteints de DT2 qui ont développé un diabète jeune et qui sont traités presque exclusivement avec de l'insuline). De plus, la méthodologie employée suppose que le diagnostic (DT1 vs DT2) établi par le médecin généraliste est exact, alors qu'il est possible que certains médecins aient mal classé certains patients. Aussi, l’algorithme a été développé sur des données de 2010 à 2019, c’est-à-dire avant la pandémie de Covid-19. Les performances de l’algorithme ne sont pas prévisibles s’il est appliqué sur des données couvrant la période Covid. Enfin, des mises à jour du modèle seraient nécessaires sur des années plus récentes pour notamment inclure les nouveaux traitements SGLT2 qui pourraient améliorer la classification.
Date de dernière mise à jour
Aucune mise à jour de l’algorithme n’est prévue à ce jour.
Comment utiliser l’algorithme ?
L’algorithme doit être appliqué sur une population de patients diabétiques adultes identifiée par l’algorithme Diabète de la cartographie, de préférence pour les patients du régime général et n’ayant pas de diabète gestationnel. Certains prédicteurs nécessiteront de dériver au préalable la date de première identification du diabète dans l’extraction (à noter que cette date peut être antérieure au début de l’extraction si les patients ont une ALD ancienne). Les utilisateurs pourront ensuite choisir arbitrairement une date index, postérieure à la date d’identification du diabète (e.g., la fin de leur période d’extraction, ou la fin de suivi des patients), qui constituera la date de référence pour la construction des prédicteurs. Les prédicteurs seront ainsi dérivés sur des périodes historiques de 1, 2 ou 5 ans précédant la date index.
L’ensemble des prédicteurs à utiliser pour l’algorithme devront être dérivés en suivant les spécifications des variables du modèle (précisant ainsi leur construction). Par la suite la probabilité DT1/DT2 pourra être obtenue en réappliquant le modèle sur les patients à partir des coefficients précisés dans les spécifications. Un programme SAS d’aide pour cette partie est disponible.
Support
Crédits
Cet algorithme a été développé dans le cadre du projet EPICODIAB ayant pour responsable de traitement Roche Diabètes Care France et avec l’aide d’un comité scientifique.
Expert :
- Dr Pierre Serusclat, endocrinologue, Endocrinologue, Diabétologue et Nutrition, Clinique Portes du Sud, Venissieux, France
- Guy Fagherazzi, chargé de recherche en épidémiologie, Deep Digital Phenotyping Research Unit, Department of Precision Health, Luxembourg Institute of Health
- Pr Michael Joubert, Professeur d'Endocrinologie, Diabétologie, Maladies Métaboliques, unité d soin du diabète ; Hôpital universitaire de Caen
Roche Diagnostics France :
- Cécile Berteau, Chargé d’étude clinique, Roche Diagnostics France
- Antoine Pouyet, Responsable Market Access et Business, Timkl France
Licence et conditions d’utilisation
Apache 2.0