EDS-NLP : framework de NLP modulaire et rapide, compatible avec Pytorch et spaCy, offrant un support sur mesure pour les notes cliniques en français.
Objectifs de l’algorithme
EDS-NLP est un framework NLP collaboratif qui vise à extraire des informations à partir de notes cliniques françaises. Il s'agit d'une collection de composants ou de tuyaux, soit des fonctions basées sur des règles, soit des modules d'apprentissage profond. Ces composants sont organisés dans un système de pipeline efficace, novateur et modulaire, conçu pour les modèles hybrides et multitâches. Nous utilisons spaCy pour représenter les documents et leurs annotations, et Pytorch comme backend d'apprentissage profond pour les composants entraînables.
EDS-NLP est polyvalent et peut être utilisé sur n'importe quel document textuel. Les composants basés sur des règles sont entièrement compatibles avec les composants de spaCy, et vice versa. Cette bibliothèque est le fruit d'un travail collaboratif, et nous encourageons d'autres contributions pour améliorer ses fonctionnalités et sa performance.
Fonctionnalités :
- Composants basés sur des règles pour les notes cliniques en français ;
- Composants entraînables : NER, classification Span ;
- Prise en charge de modèles d'apprentissage profond multitâches avec partage des poids ;
- Inférence rapide, avec prise en charge multi-GPU dès le départ ;
- Facile à utiliser, avec une API de type spaCy ;
- Compatible avec les composants spaCy basés sur des règles ;
- Divers formats io tels que BRAT, JSON, Parquet, Pandas ou Spark.
Auteur(s)
Domaine médical
Méthodologie
EDS-NLP est une librairie collaborative développée par les data scientists travaillant à l’AP-HP. Chaque algorithme présenté est un ensemble de règles et/ou de regex développés et utilisés pour des projets de recherche. Certains font l’objet d’une publication scientifique. Se référer à la documentation pour plus de détails méthodologiques.
Langage de programmation
Données utilisées
Données d'application
Les algorithmes ont été développés à partir des dizaines de millions de comptes-rendus médicaux au sein de l’entrepôt de données (EDS) de l’AP-HP. Ceux-ci sont de typologies variées (compte-rendu d’hospitalisation, compte-rendu de consultation, prescription de médicament, compte-rendu d’imagerie etc.).
Aucune donnée sensible n’est présente dans les fichiers mis en ligne.
Date de dernière mise à jour
Voir l’historique github.
Maintenance
Maintenu par l’équipe data science de l’entrepôt de données (EDS) de l’AP-HP.
Comment installer l’algorithme ?
Pour installer EDS-NLP, utilisez pip : pip install edsnlp
Comment utiliser l’algorithme ?
Voir la documentation.
Support
Contributions
Les contributions sont acceptées. Plus de détails dans le fichier contributing.md
Crédits
Voir la liste des contributeurs GitHub.
Licence et conditions d’utilisation
BSD-3-Clause license