EDS-Pseudo : Pseudonymisation de documents médicaux

GitHub

Lien vers le repo : GitHub

Partager

Objectifs de l’algorithme

Outils de pseudonymisation / anonymisation

EDS-Pseudo vise à détecter des entités identifiantes dans des documents médicaux, et a été principalement testé sur des documents médicaux de l'entrepôt de données de santé (EDS) de l'AP-HP (démo).

Le modèle est basé sur EDS-NLP, et consiste en un modèle hybride (règles + apprentissage profond) pour lequel nous fournissons des règles (eds-pseudo/pipes) et un script d'entraînement.

Nous fournissons également quelques modèles fictifs (templates.txt) et un script pour générer un jeu de données synthétique (generate_dataset.py).

Auteur(s)

Établissement de santé
Perceval Wajsbürt
perceval.wajsburt@aphp.fr

Équipe Data Science de l'Entrepôt de Données de Santé (EDS) de l'AP-HP

Établissement de santé
Alice Calliger

Équipe Data Science de l'Entrepôt de Données de Santé (EDS) de l'AP-HP

Établissement de santé
Basile Dura

Équipe Data Science de l'Entrepôt de Données de Santé (EDS) de l'AP-HP

Méthodologie

Plus de détails sur la méthodologie dans l’article suivant : Development and validation of a natural language processing algorithm to pseudonymize documents.

Langage de programmation

Python

Données utilisées

Données d'application

Texte libre

Le modèle entraîné en interne sur les 3682 documents de l’entrepôt de données de santé de l’AP-HP n’est pas rendu public en raison de la sensibilité des données de son jeu d'entraînement. Ce qui est rendu disponible publiquement dans ce dépôt correspond à des modèles fictifs et un script pour générer un jeu de données synthétique.

Validation

Validé

L’algorithme a été validé en interne sur les données de l’AP-HP.

Date de dernière mise à jour

Voir l’historique GitHub.

Maintenance

Régulière

Maintenu par l’équipe data science de l’entrepôt de données (EDS) de l’AP-HP.

Comment installer l’algorithme ?

Voir la documentation.

Comment utiliser l’algorithme ?

Voir la documentation.

Support

Contacter le support via GitHub

https://github.com/aphp/eds-pseudo/issues

Contributions

Les contributions sont acceptées. 

Crédits

Voir la liste des contributeurs GitHub.

Licence et conditions d’utilisation

BSD-3-Clause license