tadata
Retour à l'accueil

Qualité des Données : Dimensions, Frameworks et Observabilité

#data-quality#data-engineering#data-governance#testing

Pourquoi la Qualité des Données Est un Enjeu Stratégique

Les mauvaises données coûtent cher. Gartner estime que la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars par an aux organisations. Mais le vrai coût est la perte de confiance : quand les parties prenantes ne font plus confiance aux dashboards, elles reviennent aux décisions instinctives et aux tableurs.

La qualité des données n'est pas un correctif ponctuel. C'est une discipline continue.

Les Six Dimensions de la Qualité des Données

DimensionDéfinitionExemple de Vérification
ExactitudeLa donnée représente correctement l'entité réelleL'email client correspond à la source vérifiée
ComplétudeLes champs requis sont remplisPas de valeurs nulles dans les colonnes obligatoires
CohérenceLa même donnée est identique entre systèmesTotal commande en facturation = total en analytics
PonctualitéLa donnée arrive quand attenduLe pipeline quotidien termine avant 8h
UnicitéPas de doublons non voulusUne ligne par client par jour
ValiditéLa donnée est conforme aux règles/formats définisDates en ISO 8601, statut dans l'enum autorisé

Test vs Observabilité

Ces approches sont complémentaires, pas concurrentes :

AspectTests de DonnéesObservabilité des Données
ApprocheAssertions explicites définiesSurveillance automatique des anomalies
QuandPendant l'exécution du pipelineEn continu, y compris au repos
Ce qui est détectéModes de défaillance connusInconnues (dérives, changements de distribution)
Exemplesdbt tests, Great ExpectationsMonte Carlo, Soda, Anomalo

Comparaison des Frameworks

OutilTypeIdéal PourIntégration
Great ExpectationsOpen sourceÉquipes Python, pipelines batchAirflow, Spark, pandas
SodaOpen source + commercialÉquipes SQL-firstWarehouse-natif, Airflow
dbt testsIntégré à dbtÉquipes utilisant déjà dbtProjets dbt
Monte CarloCommercialMonitoring bout-en-boutLarge intégration warehouse/BI
ElementaryOpen source (dbt-natif)Équipes dbt voulant l'observabilitéProjets dbt

Construire une Stratégie Qualité

Couche 1 : Validation de schema

  • Appliquer les schémas à l'ingestion
  • Attraper les cassures structurelles avant propagation

Couche 2 : Tests de règles métier

  • Vérifications not-null sur les champs requis
  • Intégrité référentielle
  • Vérifications de plage (age > 0, prix >= 0)
  • Contraintes d'unicité

Couche 3 : Monitoring statistique

  • Anomalies de volume
  • Dérive de distribution
  • Monitoring de fraîcheur

Couche 4 : Reconciliation inter-systèmes

  • Correspondance du nombre de lignes source-cible
  • Réconciliation des valeurs agrégées entre systèmes

SLOs de Qualité des Données

Traitez la qualité des données comme la fiabilité des services. Définissez des SLOs :

  • Fraîcheur : table mise à jour dans les 2 heures suivant la source
  • Complétude : colonnes critiques avec < 0,1% de taux de null
  • Volume : nombre de lignes quotidien dans les 2 écarts-types de la moyenne sur 30 jours
  • Schéma : zéro changement de schéma inattendu sans revue

Ressources

Nous utilisons des cookies analytiques pour améliorer votre expérience. Aucune donnée personnelle n'est collectée.