Le data downtime est la période pendant laquelle les données sont manquantes, inexactes ou inutilisables. Contrairement au downtime applicatif qui déclenché des alertes immédiates, le data downtime passé souvent inaperçu pendant des heures ou des jours. Quand quelqu'un remarqué un chiffré faux sur un dashboard, les decisions ont déjà ete prises sur des informations erronées.
Framework de calcul du cout du downtime
| Categorie de cout | Formule | Exemple (entreprise moyenne) |
|---|
| Impact revenus | (Mauvaises decisions x valeur moyenne) / incident | 50K-500K$ par incident majeur |
| Cout main-d'œuvre | (Ingenieurs x heures x taux horaire) par incident | 3 ingénieurs x 8h x 80 EUR = 1 920 EUR |
| Cout d'opportunité | Projets retardés pendant le firefighting | 10K-50K$ par semaine de retard |
| Erosion de confiance | Qualitatif : les parties prenantes arrêtent d'utiliser la data | Non mesurable mais cumulatif |
| Risque conformité | Amendes réglementaires pour reporting incorrect | 10K-10M$ selon le secteur |
Benchmarks industrie : Gartner estimé que la mauvaise qualité des données coute en moyenne 12,9M$ par an aux organisations.
Taxonomie des categories d'incidents
Incidents de Data Downtime
+-- Fraicheur
| +-- Pipeline en retard ou bloque
| +-- Livraison tardive du système source
| +-- Echec de l'orchestrateur (DAG bloque)
+-- Volume
| +-- Chute/pic inattendu du nombre de lignes
| +-- Chargement partiel (partitions manquantes)
| +-- Enregistrements dupliques
+-- Schema
| +-- Colonne ajoutee/supprimee/renommee en amont
| +-- Changement de type cassant les transformations
| +-- Changement d'encodage (problèmes UTF-8)
+-- Distribution
| +-- Derive de métrique (graduelle ou soudaine)
| +-- Pic de taux de NULL
| +-- Changement de valeurs categoriques
+-- Lignage
| +-- Chaine de dependances cassee
| +-- Tables orphelines encore consommees
| +-- Dependances circulaires
Template de SLA data
| Dimension SLA | Tier 1 (Critique) | Tier 2 (Important) | Tier 3 (Standard) |
|---|
| Fraicheur | Mise a jour < 15 min | Mise a jour < 1 heure | Mise a jour < 24 heures |
| Completude | 99,9% des lignes attendues | 99% des lignes attendues | 95% des lignes attendues |
| Exactitude | < 0,01% taux d'erreur | < 0,1% taux d'erreur | < 1% taux d'erreur |
| Disponibilité | 99,9% uptime | 99,5% uptime | 99% uptime |
| Temps de réponse | Réponse incident < 15 min | Réponse < 1 heure | Réponse < 4 heures |
| Temps de résolution | Resolu < 2 heures | Resolu < 8 heures | Resolu < 48 heures |
| Exemples | Reporting financier, features ML | Dashboards executifs, KPIs | Datasets exploratoires |
Matrice d'impact par type de consommateur
| Type de consommateur | Impact donnée fausse | Impact donnée tardive | Impact donnée manquante | Sensibilite |
|---|
| Direction / Board | Erreurs stratégiques | Decisions retardées | Perte de confiance | Tres haute |
| Finance / Comptabilite | Violations réglementaires | Depots en retard | Echecs d'audit | Tres haute |
| Modèles ML en production | Predictions fausses | Features obsolètes | Echecs de modèle | Haute |
| Product Managers | Mauvaise priorisation | Fenetres manquees | Estimation au doigt mouillé | Haute |
| Marketing | Budget gaspille, mauvais ciblage | Timing rate | Pas d'attribution | Moyenne-Haute |
| Clients externes (produits data) | Violation SLA, churn | Erosion de confiance | Violation contractuelle | Tres haute |
Comparaison d'outils de détection
| Outil | Type | Fraicheur | Volume | Schema | Distribution | Lignage | Modèle tarifaire |
|---|
| Monte Carlo | Commercial | Oui | Oui | Oui | Oui | Oui | Par table monitorée |
| Elementary | OSS (dbt) | Oui | Oui | Oui | Oui | Via dbt | Gratuit |
| Great Expectations | OSS | Non | Oui | Oui | Oui | Non | Gratuit |
| Soda Core | OSS | Oui | Oui | Oui | Oui | Non | Gratuit |
| dbt tests | OSS | Limite | Oui | Oui | Limite | Via dbt | Gratuit |
| Datafold | Commercial | Oui | Oui | Oui | Oui | Oui | Par utilisateur |
Construire une pratique de fiabilité data
L'approche la plus efficace est en couches : les tests dbt detectent les problèmes connus au moment de la transformation, Great Expectations ou Soda valident les contrats de données aux frontieres d'ingestion, et un outil d'observabilite comme Elementary fournit la détection d'anomalies. Associez cela a des tiers de SLA clairs, des rotations d'astreinte pour la data Tier 1, et des post-mortems d'incidents.
Ressources