EDS-PDF : Extraction d'informations textuelles à partir de documents PDF.

GitHub

Lien vers le repo : GitHub

Partager

Objectifs de l’algorithme

Autre

EDS-PDF est un framework permettant l'extraction d'informations textuelles à partir de documents PDF. Vous pouvez l'utiliser tel quel ou l'adapter à votre cas d’usage spécifique. Il fournit un système de pipelines et divers outils pour la visualisation et le traitement des PDF, ainsi que de multiples composants pour construire des modèles complexes tels que :

  • Extracteurs pour analyser les PDF (basés sur pdfminer, mupdf ou poppler) ;
  • Classificateurs pour effectuer la classification des zones de texte, afin de segmenter les PDF ;
  • Agrégateurs pour produire un résultat agrégé à partir des zones de texte détectées ; 
  • Couches entraînables pour incorporer l'apprentissage automatique dans votre pipeline.
     

Plus de détails de documentation sur le GitHub.

Auteur(s)

Établissement de santé
Perceval Wajsbürt
perceval.wajsburt@aphp.fr

Equipe Data Science de l'Entrepôt de Données de Santé (EDS) de l'AP-HP

Domaine médical

Tous

Langage de programmation

Python
Autre

Données utilisées

Données d'application

Autre

Les briques de la bibliothèque ont été utilisées afin d'entraîner un modèle sur les documents de l’entrepôt de données de santé de l’AP-HP. Ce modèle n’est pas public en raison de la sensibilité des données qui le composent. L’utilisateur doit fournir son propre jeu de données pour utiliser la bibliothèque.

Validation

Validé

Cette ressource a été évaluée en interne sur les documents de l’entrepôt de données de santé de l’AP-HP.

Date de dernière mise à jour

Voir l’historique GitHub.

Maintenance

Régulière

Maintenu par l’équipe data science de l’entrepôt de données (EDS) de l’AP-HP.

Comment installer l’algorithme ?

Utiliser la commande : pip install edspdf

Comment utiliser l’algorithme ?

Voir la documentation.

Support

Contacter le support via le GitHub

https://github.com/aphp/edspdf/issues

Contributions

Les contributions sont acceptées : plus de détails dans le fichier contributing.md.

Crédits

Voir la liste des contributeurs GitHub.

Licence et conditions d’utilisation

BSD-3-Clause license