EDS-PDF : Extraction d'informations textuelles à partir de documents PDF.
Objectifs de l’algorithme
EDS-PDF est un framework permettant l'extraction d'informations textuelles à partir de documents PDF. Vous pouvez l'utiliser tel quel ou l'adapter à votre cas d’usage spécifique. Il fournit un système de pipelines et divers outils pour la visualisation et le traitement des PDF, ainsi que de multiples composants pour construire des modèles complexes tels que :
- Extracteurs pour analyser les PDF (basés sur pdfminer, mupdf ou poppler) ;
- Classificateurs pour effectuer la classification des zones de texte, afin de segmenter les PDF ;
- Agrégateurs pour produire un résultat agrégé à partir des zones de texte détectées ;
- Couches entraînables pour incorporer l'apprentissage automatique dans votre pipeline.
Plus de détails de documentation sur le GitHub.
Auteur(s)
Domaine médical
Méthodologie
Plus de détails méthodologiques dans l’article suivant : Bridging Clinical PDFs and Downstream Natural Language Processing: An Efficient Neural Approach to Layout Segmentation.
Langage de programmation
Données utilisées
Données d'application
Les briques de la bibliothèque ont été utilisées afin d'entraîner un modèle sur les documents de l’entrepôt de données de santé de l’AP-HP. Ce modèle n’est pas public en raison de la sensibilité des données qui le composent. L’utilisateur doit fournir son propre jeu de données pour utiliser la bibliothèque.
Validation
Cette ressource a été évaluée en interne sur les documents de l’entrepôt de données de santé de l’AP-HP.
Date de dernière mise à jour
Voir l’historique GitHub.
Maintenance
Maintenu par l’équipe data science de l’entrepôt de données (EDS) de l’AP-HP.
Comment installer l’algorithme ?
Utiliser la commande : pip install edspdf
Comment utiliser l’algorithme ?
Voir la documentation.
Support
Contributions
Les contributions sont acceptées : plus de détails dans le fichier contributing.md.
Crédits
Voir la liste des contributeurs GitHub.
Licence et conditions d’utilisation
BSD-3-Clause license