Data Quality: Dimensions, Frameworks, and Observability

Pourquoi la Qualité des Données Est un Enjeu Stratégique

Les mauvaises données coûtent cher. Gartner estime que la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars par an aux organisations. Mais le vrai coût est la perte de confiance : quand les parties prenantes ne font plus confiance aux dashboards, elles reviennent aux décisions instinctives et aux tableurs.

La qualité des données n'est pas un correctif ponctuel. C'est une discipline continue.

Les Six Dimensions de la Qualité des Données

Dimension	Définition	Exemple de Vérification
Exactitude	La donnée représente correctement l'entité réelle	L'email client correspond à la source vérifiée
Complétude	Les champs requis sont remplis	Pas de valeurs nulles dans les colonnes obligatoires
Cohérence	La même donnée est identique entre systèmes	Total commande en facturation = total en analytics
Ponctualité	La donnée arrive quand attendu	Le pipeline quotidien termine avant 8h
Unicité	Pas de doublons non voulus	Une ligne par client par jour
Validité	La donnée est conforme aux règles/formats définis	Dates en ISO 8601, statut dans l'enum autorisé

Test vs Observabilité

Ces approches sont complémentaires, pas concurrentes :

Aspect	Tests de Données	Observabilité des Données
Approche	Assertions explicites définies	Surveillance automatique des anomalies
Quand	Pendant l'exécution du pipeline	En continu, y compris au repos
Ce qui est détecté	Modes de défaillance connus	Inconnues (dérives, changements de distribution)
Exemples	dbt tests, Great Expectations	Monte Carlo, Soda, Anomalo

Comparaison des Frameworks

Outil	Type	Idéal Pour	Intégration
Great Expectations	Open source	Équipes Python, pipelines batch	Airflow, Spark, pandas
Soda	Open source + commercial	Équipes SQL-first	Warehouse-natif, Airflow
dbt tests	Intégré à dbt	Équipes utilisant déjà dbt	Projets dbt
Monte Carlo	Commercial	Monitoring bout-en-bout	Large intégration warehouse/BI
Elementary	Open source (dbt-natif)	Équipes dbt voulant l'observabilité	Projets dbt

Construire une Stratégie Qualité

Couche 1 : Validation de schema

Appliquer les schémas à l'ingestion
Attraper les cassures structurelles avant propagation

Couche 2 : Tests de règles métier

Vérifications not-null sur les champs requis
Intégrité référentielle
Vérifications de plage (age > 0, prix >= 0)
Contraintes d'unicité

Couche 3 : Monitoring statistique

Anomalies de volume
Dérive de distribution
Monitoring de fraîcheur

Couche 4 : Reconciliation inter-systèmes

Correspondance du nombre de lignes source-cible
Réconciliation des valeurs agrégées entre systèmes

SLOs de Qualité des Données

Traitez la qualité des données comme la fiabilité des services. Définissez des SLOs :

Fraîcheur : table mise à jour dans les 2 heures suivant la source
Complétude : colonnes critiques avec < 0,1% de taux de null
Volume : nombre de lignes quotidien dans les 2 écarts-types de la moyenne sur 30 jours
Schéma : zéro changement de schéma inattendu sans revue

Qualité des Données : Dimensions, Frameworks et Observabilité