Etude EpiPrEP: Quantification et caractérisation de la population à haut risque de séropositivité VIH en France sur la période 2016-2023
Objectif(s) de la recherche et intérêt pour la santé publique
Finalité de l'étude
Objectifs poursuivis
Domaines médicaux investigués
Bénéfices attendus
Intérêt pour la santé publique: Selon UNAIDS, environ 39 millions d’individus vivaient avec le VIH dans le monde en 2022. En France, après une diminution de 25 % des nouveaux cas de VIH en 2020 du fait de la pandémie de COVID-19, l’incidence des nouvelles contaminations demeure stable - autour de 5000 nouveaux cas par an. A condition que l’observance soit adéquate, la PrEP est une mesure prophylactique efficace qui permet d’éviter une nouvelle contamination lors d’une exposition au VIH. Une efficacité de 93% a été rapportée dans l’étude Epi-Phare, chez les hommes ayant des comportements sexuels à risque. Cependant, il reste difficile d’identifier l’ensemble des individus éligibles à la PrEP. De par son mode d’administration (prise régulière de comprimés), cette dernière reste relativement peu utilisée en France, représentant une perte de chance pour de nombreux individus qui pourraient en bénéficier. La forme injectable du lénacapavir pourrait permettre d’améliorer à la fois la couverture et l’observance de la PrEP au niveau national, deux mesures qui pourraient contribuer à la diminution de l’incidence du VIH en France.
Objectifs: Dans ce contexte, l’objectif principal de ce projet est d’estimer la prévalence de la population à haut risque d’être contaminée par le VIH en France, ceci afin d’estimer le nombre d’individus qui pourraient potentiellement bénéficier de la PrEP.
Le second objectif est de caractériser cette population afin de discerner un certain nombre de sous-groupes au profil similaire via une méthode de clustering.
Eléments de méthode: Nous souhaitons développer un algorithme de machine learning de classification supervisée permettant de distinguer les individus à haut versus bas risque de contamination VIH sur la base de variables prédictives dérivées de données de consommation de soin. Cet algorithme sera entraîné sur un échantillon du SNDS constitué de cas (incidents VIH) et contrôles (individus demeurant séronégatifs) puis testé dans l'ESND sur un jeu de données séparé représentatif de la population Française et permettant ainsi une extrapolation de la prévalence des individus à haut risque de contamination VIH à l'échelle nationale. Enfin la dernière étape utilisera le clustering non supervisé pour caractériser la population à haut risque de contamination VIH identifiée par l'algorithme dans l'ESND et déterminer des sous-groupes homogènes de patients au profil similaire.
Population d'étude:
Pour le développement de l'algorithme de machine learning dans le SNDS, nous aurons besoin de cas incident VIH sur la période d'étude (1er janvier 2016 au 31 décembre 2023) et de contrôles (ratio de 5 séronégatifs par cas incident VIH). Ces individus devront avoir au moins une consommation de soin durant la période d'étude et la première consommation de soin devra avoir lieu un jour impair afin de distinguer ces individus de ceux constituant le test set de l'ESND. Il s'agira d'une population d'adultes (18 ans et plus à la date index) ayant au moins 3 ans de données recueillies dans le SNDS avant la date index afin de pouvoir dériver les variables prédictives nécessaires au modèle.
Pour la phase de test du modèle dans l'ESND, nous ne considérerons que les individus adultes ayant au moins une consommation de soin durant la période d'étude et dont la première consommation de soin a lieu un jour pair.
Données utilisées
Catégories de données utilisées
Autre(s) catégorie(s) de donnée(s) utilisée(s)
Seules les données du SNDS et de l'ESND seront utilisées (DCIR et PMSI).
Source de données utilisées
Composante(s) de la base principale du SNDS mobilisée(s)
Autre(s) source(s) de donnée(s) mobilisée(s)
Appariement entre les sources de données mobilisées
Variables sensibles utilisées
Justification du recours à cette(ces) variable(s) sensible(s)
La date de soins est nécessaire pour définir la date index, appliquer les critères d'inclusion et d'exclusion.
La commune de résidence est nécessaire pour accéder à l'indice de déprivation, une variable prédictive importante dans le modèle de machine learning.
Pour la date de naissance, uniquement l'année est absolument nécessaire. De la même façon, pour la date de décès nous avons besoin du mois et de l'année.
Recours au numéro d'identification des professionnels de santé
Plateforme utilisée pour l'analyse des données
Acteurs finançant et participant à l'étude
Responsable(s) de traitement
Type de responsable de traitement 1
Responsable de traitement 1
Localisation du responsable de traitement 1
Représentant du responsable de traitement 1
Le responsable de traitement est également responsable de mise en oeuvre
Responsable(s) de mise en oeuvre non cités comme responsable de traitement
Responsable de mise en oeuvre non cité comme responsable de traitement 1
Calendrier du projet
Base légale pour accéder aux données
Encadrement réglementaire
Durée de conservation aux fins du projet (en années)
0
Existence d'une prise de décision automatisée
Fondement juridique
Article 6 du RGPD (Licéité du traitement)
Article 9 du RGPD (Exception permettant de traiter des données de santé)
Transfert de données personnelles vers un pays hors UE
Droits des personnes
Publication d'une note d'information sur le site internet du responsable de traitement (Gilead Sciences), du responsable de mise en oeuvre (Horiana) et de la CNAM.