Qualité des Données : Dimensions, Frameworks et Observabilité
Pourquoi la Qualité des Données Est un Enjeu Stratégique
Les mauvaises données coûtent cher. Gartner estime que la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars par an aux organisations. Mais le vrai coût est la perte de confiance : quand les parties prenantes ne font plus confiance aux dashboards, elles reviennent aux décisions instinctives et aux tableurs.
La qualité des données n'est pas un correctif ponctuel. C'est une discipline continue.
Les Six Dimensions de la Qualité des Données
| Dimension | Définition | Exemple de Vérification |
|---|---|---|
| Exactitude | La donnée représente correctement l'entité réelle | L'email client correspond à la source vérifiée |
| Complétude | Les champs requis sont remplis | Pas de valeurs nulles dans les colonnes obligatoires |
| Cohérence | La même donnée est identique entre systèmes | Total commande en facturation = total en analytics |
| Ponctualité | La donnée arrive quand attendu | Le pipeline quotidien termine avant 8h |
| Unicité | Pas de doublons non voulus | Une ligne par client par jour |
| Validité | La donnée est conforme aux règles/formats définis | Dates en ISO 8601, statut dans l'enum autorisé |
Test vs Observabilité
Ces approches sont complémentaires, pas concurrentes :
| Aspect | Tests de Données | Observabilité des Données |
|---|---|---|
| Approche | Assertions explicites définies | Surveillance automatique des anomalies |
| Quand | Pendant l'exécution du pipeline | En continu, y compris au repos |
| Ce qui est détecté | Modes de défaillance connus | Inconnues (dérives, changements de distribution) |
| Exemples | dbt tests, Great Expectations | Monte Carlo, Soda, Anomalo |
Comparaison des Frameworks
| Outil | Type | Idéal Pour | Intégration |
|---|---|---|---|
| Great Expectations | Open source | Équipes Python, pipelines batch | Airflow, Spark, pandas |
| Soda | Open source + commercial | Équipes SQL-first | Warehouse-natif, Airflow |
| dbt tests | Intégré à dbt | Équipes utilisant déjà dbt | Projets dbt |
| Monte Carlo | Commercial | Monitoring bout-en-bout | Large intégration warehouse/BI |
| Elementary | Open source (dbt-natif) | Équipes dbt voulant l'observabilité | Projets dbt |
Construire une Stratégie Qualité
Couche 1 : Validation de schema
- Appliquer les schémas à l'ingestion
- Attraper les cassures structurelles avant propagation
Couche 2 : Tests de règles métier
- Vérifications not-null sur les champs requis
- Intégrité référentielle
- Vérifications de plage (age > 0, prix >= 0)
- Contraintes d'unicité
Couche 3 : Monitoring statistique
- Anomalies de volume
- Dérive de distribution
- Monitoring de fraîcheur
Couche 4 : Reconciliation inter-systèmes
- Correspondance du nombre de lignes source-cible
- Réconciliation des valeurs agrégées entre systèmes
SLOs de Qualité des Données
Traitez la qualité des données comme la fiabilité des services. Définissez des SLOs :
- Fraîcheur : table mise à jour dans les 2 heures suivant la source
- Complétude : colonnes critiques avec < 0,1% de taux de null
- Volume : nombre de lignes quotidien dans les 2 écarts-types de la moyenne sur 30 jours
- Schéma : zéro changement de schéma inattendu sans revue