Catalogue de Métadonnées du Health Data Hub

Gitlab

Lien vers le repo : Gitlab

Objectifs de l’algorithme

Autre

L’algorithme du Metadata Catalog vise à structurer, valider et publier des métadonnées conformes au modèle Health DCAT-AP. Il automatise la vérification de cohérence et l’enrichissement des jeux de données afin d’assurer leur interopérabilité entre institutions de santé.

Il est destiné aux organisations publiques, chercheurs et établissements de santé souhaitant décrire et partager leurs données de manière standardisée.

Son usage s’inscrit principalement dans le cadre du Health Data Hub français, mais peut être étendu à d’autres entités européennes participant à la mise en réseau des catalogues de données de santé.

Auteur(s)

Établissement de santé
Anis Hamroun

Développeur, Health Data Hub

Établissement de santé
Samuel Houri

Product Owner, Health Data Hub

Établissement de santé
Thomas Joillet

Engineering Manager, Health Data Hub

Établissement de santé
Louis Pery

Chief Technical Officer, Health Data Hub

Domaine médical

Cancers
Maladies cardio-vasculaires
Diabète
Maladies neurodégénératives
Santé mentale et Psychiatrie
Périnatalité et Santé reproductive
Maladies respiratoires
Maladies infectieuses
Enfants et Pédiatrie
Personnes âgées et Gériatrie
Autre

Méthodologie

La méthodologie du Catalogue de métadonnées  repose sur une approche modulaire et interopérable, centrée sur les standards ouverts du Web sémantique (RDF, DCAT, SHACL). Le choix de ces technologies garantit la compatibilité avec les catalogues européens et facilite la validation automatique des métadonnées.

Le développement s’est appuyé sur une architecture orientée services : un backend FastAPI pour la gestion des métadonnées, Fuseki pour le stockage RDF, Keycloak pour l’authentification, et une interface React pour l’édition et la recherche. 

Les principaux défis ont concerné la conformité stricte au modèle Health DCAT-AP, la gestion des performances lors de la validation SHACL et la synchronisation entre environnements locaux et cloud (S3).

À ce jour, le projet n’a pas encore fait l’objet de publication scientifique, mais s’appuie sur les spécifications officielles du Health DCAT-AP (European Commission, 2021) et du W3C DCAT 3.0 (2020).

Langage de programmation

Python

Données utilisées

Données d'application

Autre

Validation

Validé

Date de dernière mise à jour

11/10/2025

Maintenance

Régulière

L’application est maintenue par le Health Data Hub.

Comment installer l’algorithme ?

Installation en production (Helm)

Prérequis :

  • Un cluster Kubernetes (≥1.23)
  • Helm (≥v3) installé localement
  • Accès à un registre d’images Docker et à un bucket S3 configuré
  • Fichier de configuration values.prod.yaml adapté à votre environnement
     

1. Cloner le dépôt

git clone https://github.com/health-data-hub/metadata-catalog.git

cd metadata-catalog/helm

 

2. Création des values (exemple)

image:

  repository: ghcr.io/health-data-hub/metadata-catalog

  tag: latest

env:

  S3_REGION: "eu-west-3"

  S3_URL: "https://s3.eu-west-3.amazonaws.com"

  S3_BUCKET: "hdh-metadata-prod"

  S3_ACCESS_KEY: "<votre_access_key>"

  S3_SECRET_KEY: "<votre_secret_key>"

ingress:

  enabled: true

  host: "catalogue.health-data-hub.fr"

keycloak:

  url: "https://auth.health-data-hub.fr"

  realm: "metadata"

 

3. Déployer avec Helm

helm upgrade --install metadata-catalog ./chart \

  -f values.prod.yaml \

  --namespace metadata \

  --create-namespace

 

4. Vérifier le déploiement

kubectl get pods -n metadata

kubectl get ingress -n metadata

Crédits

Merci de noter que ce dépôt n’accepte pas de contributions. Pour toute question ou problème, veuillez utiliser le système de suivi des issues du dépôt.

Licence et conditions d’utilisation

Ce projet est sous licence Apache License, Version 2.0