Catalogues de Données & Gestion des Métadonnées : L'Épine Dorsale de la Confiance
#data-governance#data-catalog#metadata#data-engineering
Pourquoi les Métadonnées Comptent
Des données sans contexte sont du bruit. Les métadonnées répondent aux questions qui rendent les données utilisables :
- Que signifie ce champ ? (métadonnées métier)
- D'où vient cette donnée ? (métadonnées opérationnelles / lignage)
- Quelle est sa fraîcheur ? (métadonnées opérationnelles)
- Qui en est responsable ? (métadonnées de gouvernance)
- Puis-je lui faire confiance ? (métadonnées de qualité)
Sans gestion des métadonnées, les organisations se retrouvent avec des analytics sauvages, des pipelines dupliqués et zéro confiance dans les chiffres.
Types de Métadonnées
| Type | Exemples | Public Concerné |
|---|---|---|
| Technique | Types de colonnes, schémas, partitions, formats | Data engineers |
| Opérationnel | Exécutions de pipelines, fraîcheur, nombre de lignes | Data engineers, SREs |
| Métier | Définitions, glossaire métier, propriété | Analystes, utilisateurs métier |
| Qualité | Résultats de tests, scores d'anomalie, conformité SLO | Tout le monde |
| Social | Stats d'usage, requêtes, favoris | Analystes, data scientists |
Métadonnées Actives vs Passives
Métadonnées passives : collectées et affichées. Elles attendent dans un catalogue d'être lues.
Métadonnées actives : elles pilotent l'automatisation :
- Classification automatique des colonnes PII selon des patterns
- Déclenchement d'alertes quand les SLOs de fraîcheur sont violés
- Recommandation de datasets selon les patterns de requêtes
- Propagation des changements de lignage aux consommateurs en aval
L'industrie évolue du passif vers l'actif. Un catalogue qui ne stocke que des descriptions est un minimum.
Panorama des Outils (2026)
| Outil | Type | Force Clé | Déploiement |
|---|---|---|---|
| DataHub | Open source (Acryl) | Modèle de métadonnées extensible | Self-hosted ou managé |
| OpenMetadata | Open source | UI riche, qualité & lignage intégrés | Self-hosted ou managé |
| Atlan | Commercial | Métadonnées actives, collaboration | SaaS |
| Alation | Commercial | Glossaire métier, curation ML | SaaS / hybride |
| Unity Catalog | Databricks | Intégration profonde Databricks | Managé ou self-hosted |
| AWS Glue Catalog | AWS | Intégration native AWS, serverless | Managé |
Glossaire Métier : La Fondation Sous-Estimée
Un glossaire métier relie les actifs techniques aux concepts métier :
- "Utilisateurs Actifs Mensuels" signifie X, calculé depuis la table Y, sous la responsabilité de l'équipe Z
- "Revenu" a trois définitions selon le domaine -- le glossaire rend cela explicite
Clés d'un bon glossaire :
- Détenu par les parties prenantes métier, pas les ingénieurs
- Lié aux actifs physiques (tables, colonnes, dashboards)
- Versionné et révisé régulièrement
- Recherchable et navigable
Construire une Stratégie Métadonnées
- Partir de la douleur : identifier les 3 principaux problèmes liés aux métadonnées
- Choisir un catalogue : open source si vous avez la capacité d'ingénierie, commercial sinon
- Automatiser l'ingestion : connecter warehouses, orchestrateurs, outils BI
- Imposer la propriété : chaque table doit avoir un propriétaire
- Construire le glossaire incrémentalement : commencer par les 20 termes les plus débattus
- Mesurer l'adoption : suivre les recherches, la couverture documentaire, les connexions