Etude EpiPrEP: Quantification et caractérisation de la population à haut risque de séropositivité VIH en France sur la période 2016-2023

Objectif(s) de la recherche et intérêt pour la santé publique

Finalité de l'étude

Recherche, étude, évaluation

Objectifs poursuivis

Prévention et traitement

Politiques publiques de santé

Domaines médicaux investigués

Maladies infectieuses

Bénéfices attendus

Intérêt pour la santé publique: Selon UNAIDS, environ 39 millions d’individus vivaient avec le VIH dans le monde en 2022. En France, après une diminution de 25 % des nouveaux cas de VIH en 2020 du fait de la pandémie de COVID-19, l’incidence des nouvelles contaminations demeure stable - autour de 5000 nouveaux cas par an. A condition que l’observance soit adéquate, la PrEP est une mesure prophylactique efficace qui permet d’éviter une nouvelle contamination lors d’une exposition au VIH. Une efficacité de 93% a été rapportée dans l’étude Epi-Phare, chez les hommes ayant des comportements sexuels à risque. Cependant, il reste difficile d’identifier l’ensemble des individus éligibles à la PrEP. De par son mode d’administration (prise régulière de comprimés), cette dernière reste relativement peu utilisée en France, représentant une perte de chance pour de nombreux individus qui pourraient en bénéficier. La forme injectable du lénacapavir pourrait permettre d’améliorer à la fois la couverture et l’observance de la PrEP au niveau national, deux mesures qui pourraient contribuer à la diminution de l’incidence du VIH en France.

Objectifs: Dans ce contexte, l’objectif principal de ce projet est d’estimer la prévalence de la population à haut risque d’être contaminée par le VIH en France, ceci afin d’estimer le nombre d’individus qui pourraient potentiellement bénéficier de la PrEP.
Le second objectif est de caractériser cette population afin de discerner un certain nombre de sous-groupes au profil similaire via une méthode de clustering.

Eléments de méthode: Nous souhaitons développer un algorithme de machine learning de classification supervisée permettant de distinguer les individus à haut versus bas risque de contamination VIH sur la base de variables prédictives dérivées de données de consommation de soin. Cet algorithme sera entraîné sur un échantillon du SNDS constitué de cas (incidents VIH) et contrôles (individus demeurant séronégatifs) puis testé dans l'ESND sur un jeu de données séparé représentatif de la population Française et permettant ainsi une extrapolation de la prévalence des individus à haut risque de contamination VIH à l'échelle nationale. Enfin la dernière étape utilisera le clustering non supervisé pour caractériser la population à haut risque de contamination VIH identifiée par l'algorithme dans l'ESND et déterminer des sous-groupes homogènes de patients au profil similaire.

Population d'étude:
Pour le développement de l'algorithme de machine learning dans le SNDS, nous aurons besoin de cas incident VIH sur la période d'étude (1er janvier 2016 au 31 décembre 2023) et de contrôles (ratio de 5 séronégatifs par cas incident VIH). Ces individus devront avoir au moins une consommation de soin durant la période d'étude et la première consommation de soin devra avoir lieu un jour impair afin de distinguer ces individus de ceux constituant le test set de l'ESND. Il s'agira d'une population d'adultes (18 ans et plus à la date index) ayant au moins 3 ans de données recueillies dans le SNDS avant la date index afin de pouvoir dériver les variables prédictives nécessaires au modèle.

Pour la phase de test du modèle dans l'ESND, nous ne considérerons que les individus adultes ayant au moins une consommation de soin durant la période d'étude et dont la première consommation de soin a lieu un jour pair.

Données utilisées

Catégories de données utilisées

Informations relatives aux bénéficiaires de soins et de prestations médico-sociales

Informations relatives aux pathologies des personnes concernées

Autre(s) catégorie(s) de donnée(s) utilisée(s)

Seules les données du SNDS et de l'ESND seront utilisées (DCIR et PMSI).

Source de données utilisées

Base principale du SNDS

Composante(s) de la base principale du SNDS mobilisée(s)

DCIR

PMSI

ESND

Appariement entre les sources de données mobilisées

Non

Variables sensibles utilisées

Date de soins (JJ/MM/AAAA)

Commune de résidence de la personne étudiée

Justification du recours à cette(ces) variable(s) sensible(s)

La date de soins est nécessaire pour définir la date index, appliquer les critères d'inclusion et d'exclusion.
La commune de résidence est nécessaire pour accéder à l'indice de déprivation, une variable prédictive importante dans le modèle de machine learning.
Pour la date de naissance, uniquement l'année est absolument nécessaire. De la même façon, pour la date de décès nous avons besoin du mois et de l'année.

Recours au numéro d'identification des professionnels de santé

Non

Plateforme utilisée pour l'analyse des données

Portail de la CNAM

Acteurs finançant et participant à l'étude

Responsable(s) de traitement

Type de responsable de traitement 1

Entreprise du médicament

Responsable de traitement 1

Gilead Sciences

65 quai Georges Gorse 92100 Boulogne Billancourt france

Localisation du responsable de traitement 1

Dans l'UE

Représentant du responsable de traitement 1

cidelovicimarchal@gilead.com

Responsable(s) de mise en oeuvre non cités comme responsable de traitement

Responsable de mise en oeuvre non cité comme responsable de traitement 1

Horiana

80 bis rue Paul Camelle 33100 Bordeaux France

Calendrier du projet

Date de début : 01/01/2025 – Date de fin : 31/12/2026 Durée de l'étude : 24

Etape 1 : Dépôt du projet

29/03/2024

Etape 2 : Complétude

03/04/2024

Etape 3 : Avis CEREES/CESREES

20/06/2024

Etape 4 : Sens avis CEREES/CESREES

Favorable avec recommandation

Etape 5 : Dépôt CNIL

05/07/2024

Etape 6 : Statut CNIL - Statut

Décision

Autorisation

Base légale pour accéder aux données

Encadrement réglementaire

Autorisation CNIL

Destinataire(s) des données

Destinataire des données 1

Horiana

80 bis rue Paul Camelle 33100 Bordeaux France

Durée de conservation aux fins du projet (en années)

Existence d'une prise de décision automatisée

Non

Fondement juridique

Article 6 du RGPD (Licéité du traitement)

(1)(f) intérêts légitimes du responsable de traitement

Article 9 du RGPD (Exception permettant de traiter des données de santé)

(2)(i) intérêt public dans le domaine de la santé publique

Transfert de données personnelles vers un pays hors UE

Non

Droits des personnes

Publication d'une note d'information sur le site internet du responsable de traitement (Gilead Sciences), du responsable de mise en oeuvre (Horiana) et de la CNAM.

Délégué à la protection des données

Gilead Sciences

65 quai Georges Gorse 92100 Boulogne-Billancourt France