sndskit : moteur de recherche pour extraire les données de pathologies (codes ICD), d’actes médicaux (codes CCAM) et de traitements (codes ATC) dans les tables du SNDS

GitHub

Lien vers le repo : GitHub

Partager

Objectifs de l’algorithme

Outils de manipulation / transformation de la base principale du SNDS
Outils de cartographie des pathologies
Algorithmes de requête à la demande

Requêter simplement les codes ATC, ICD/CIM10, CCAM associés aux traitements, pathologies et actes médicaux dans les tables du SNDS associées au périmètre d’un projet de la PDS.

Auteur(s)

Industriel santé
Francisco Orchard
Industriel santé
Madie William
Industriel santé
Emilien Jemelen

Domaine médical

Autres

Méthodologie

L'algorithme parcourt les tables du PMSI, DCIR, CépiDc à la recherche des codes spécifiés par l’utilisateur de sndskit dans un seul fichier de définition des variables à requêter, appelé var_def
Le parcours des tables ainsi que le retrait des variables ont été optimisés afin de réduire le temps au maximum même avec un CPU. Des fichiers intermédiaires moins lourds (.ndjson) sont aussi produits dans l’idée de réduire l’espace disque occupé et la complexité des opérations.
Le package n’a pas fait l’objet d’une publication en tant que telle, mais a été au cœur d’une publication sur l’efficacité d’un programme de dépistage organisé du cancer du sein dont les données ont été croisées avec le SNDS.

Langage de programmation

Python

Données utilisées

Données d'application

Base principale
Données tabulaires

Ensemble du périmètre du SNDS de l’étude deep.piste, incluant les données SNDS (aucune dépendance vis-à-vis d’autres données pour le package sndskit) des patientes dépistées entre 2006 et 2019.

Validation

Validé

Pas de validation systématique pour le moment.

Éléments de validation : le moteur générique de sndskit a été utilisé pour reconstruire les métriques de la performance du programme de dépistage du cancer du sein en Occitanie, avec des résultats similaires à ceux obtenus avec des registres de cancer. 

Avec le moteur générique, 95.3% des mammographies de dépistage organisées sont retrouvées à exactement la même date en tant que mammographie de dépistage organisé dans le SNDS. 

Date de dernière mise à jour

Il s’agit de la version 0.1 (la première), mise à jour pour la dernière fois fin septembre 2024.

Maintenance

Ad-hoc (en fonction des remontées de problèmes, suggestions)

Maintenu par l’équipe datascience d’Epiconcept.

Comment installer l’algorithme ?

Avec le repository cloné en local depuis la BOAS et avec pip
Depuis le repo Github d’Epiconcept : https://github.com/Epiconcept-Paris/sndskit (avec pip aussi ensuite)

Comment utiliser l’algorithme ?

Voir le readme de sndskit pour toutes les infos : en quelques lignes 

  1. renseigner les codes à requêter dans sndskit/var_def/var_def.py
  2. aller dans l’unique notebook qui appelle le moteur de recherche des codes : sndskit/generic_engine.ipynb

Autre

Consulter le README du repo sndskit.