EDS-Pseudo : Pseudonymisation de documents médicaux
Objectifs de l’algorithme
EDS-Pseudo vise à détecter des entités identifiantes dans des documents médicaux, et a été principalement testé sur des documents médicaux de l'entrepôt de données de santé (EDS) de l'AP-HP (démo).
Le modèle est basé sur EDS-NLP, et consiste en un modèle hybride (règles + apprentissage profond) pour lequel nous fournissons des règles (eds-pseudo/pipes) et un script d'entraînement.
Nous fournissons également quelques modèles fictifs (templates.txt) et un script pour générer un jeu de données synthétique (generate_dataset.py).
Auteur(s)
Méthodologie
Plus de détails sur la méthodologie dans l’article suivant : Development and validation of a natural language processing algorithm to pseudonymize documents.
Langage de programmation
Données utilisées
Données d'application
Le modèle entraîné en interne sur les 3682 documents de l’entrepôt de données de santé de l’AP-HP n’est pas rendu public en raison de la sensibilité des données de son jeu d'entraînement. Ce qui est rendu disponible publiquement dans ce dépôt correspond à des modèles fictifs et un script pour générer un jeu de données synthétique.
Validation
L’algorithme a été validé en interne sur les données de l’AP-HP.
Date de dernière mise à jour
Voir l’historique GitHub.
Maintenance
Maintenu par l’équipe data science de l’entrepôt de données (EDS) de l’AP-HP.
Comment installer l’algorithme ?
Voir la documentation.
Comment utiliser l’algorithme ?
Voir la documentation.
Support
Contributions
Les contributions sont acceptées.
Crédits
Voir la liste des contributeurs GitHub.
Licence et conditions d’utilisation
BSD-3-Clause license