Un modèle précis a 95% au déploiement peut silencieusement se degrader a 70% sans que personne ne s'en apercoive. Le monitoring logiciel traditionnel (uptime, latence, erreurs) ne détecté pas les défaillances spécifiques au ML.
Taxonomie des Types de Drift
Degradation du Modèle
├── Data Drift (la distribution des entrees change)
│ ├── Shift de covariables (distributions de features changent)
│ ├── Shift de probabilite a priori (distribution cible change)
│ └── Drift de schema (nouvelles categories, features manquantes)
├── Concept Drift (la relation entre X et Y change)
│ ├── Drift graduel (tendance lente sur des mois)
│ ├── Drift soudain (changement abrupt, ex : changement de politique)
│ ├── Drift recurrent (patterns saisonniers)
│ └── Drift incremental (petits changements cumulatifs)
├── Prediction Drift (la distribution des sorties change)
│ └── Souvent le premier symptome visible
└── Problèmes de Qualité de Données Amont
├── Augmentation des valeurs nulles
├── Changements de schema des fournisseurs
└── Echecs de pipeline ETL
Matrice de Métriques de Monitoring
| Categorie | Métrique | Ce que ca détecté | Quand l'utiliser |
|---|
| Qualité des données | Taux de null, incohérences de type | Problèmes pipeline amont | Toujours |
| Data Drift | PSI, test KS, Jensen-Shannon | Changements de distribution | Toujours |
| Prediction Drift | Divergence de distribution des sorties | Changements de comportement | Quand le ground truth est retardé |
| Performance | Accuracy, F1, AUC, RMSE | Degradation réelle | Quand le ground truth est disponible |
| Equite | Parite demographique, égalité des chances | Degradation d'equite par cohorte | Modèles reglementes |
| Opérationnel | Latence p50/p95/p99, débit, taux d'erreur | Problèmes infra/serving | Toujours |
Comparaison d'Outils
| Fonctionnalite | Evidently AI | WhyLabs | Arize | Fiddler | NannyML |
|---|
| Type | Open source + cloud | Cloud | Cloud | Cloud | Open source + cloud |
| Data Drift | Oui | Oui | Oui | Oui | Oui |
| Concept Drift | Oui | Oui | Oui | Oui | Oui (méthode CBPE) |
| Monitoring LLM | Oui | Oui | Oui | Oui | Non |
| Alertes | Seuils custom | Anomalies | Anomalies | Custom | Custom |
| Prix | Gratuit (OSS) / cloud payant | Gratuit + payant | Payant | Payant | Gratuit (OSS) / payant |
Seuils d'Alerte Recommandes
| Métrique | Vert | Jaune (Investiguer) | Rouge (Action requise) |
|---|
| Data Drift (PSI) | < 0,1 | 0,1 - 0,25 | > 0,25 |
| Taux de null | < baseline + 1% | baseline + 1-5% | > baseline + 5% |
| Chute d'accuracy | < 2% vs baseline | 2-5% vs baseline | > 5% vs baseline |
| Latence (p99) | < 2x SLA | 2-5x SLA | > 5x SLA |
| Taux d'erreur | < 0,1% | 0,1-1% | > 1% |
Recommandations Stratégiques
- Commencez par le monitoring de qualité des données. La plupart des échecs ML en production sont des problèmes de pipeline.
- Monitorez les prédictions quand vous n'avez pas le ground truth. Le prédiction drift est un indicateur avance.
- Definissez les seuils selon l'impact business. Une chute de 3% sur un filtre spam est acceptable ; sur un diagnostic médical, non.
- Automatisez les declencheurs de reentrainement, mais gardez l'approbation humaine.
- Loggez tout. Entrees, sorties, latences, valeurs de features.
Ressources