tadata
Retour à l'accueil

Monitoring de Modèles ML : Détecter les Echecs Silencieux

#machine-learning#monitoring#mlops#observability

Un modèle précis a 95% au déploiement peut silencieusement se degrader a 70% sans que personne ne s'en apercoive. Le monitoring logiciel traditionnel (uptime, latence, erreurs) ne détecté pas les défaillances spécifiques au ML.

Taxonomie des Types de Drift

Degradation du Modèle
├── Data Drift (la distribution des entrees change)
│   ├── Shift de covariables (distributions de features changent)
│   ├── Shift de probabilite a priori (distribution cible change)
│   └── Drift de schema (nouvelles categories, features manquantes)
├── Concept Drift (la relation entre X et Y change)
│   ├── Drift graduel (tendance lente sur des mois)
│   ├── Drift soudain (changement abrupt, ex : changement de politique)
│   ├── Drift recurrent (patterns saisonniers)
│   └── Drift incremental (petits changements cumulatifs)
├── Prediction Drift (la distribution des sorties change)
│   └── Souvent le premier symptome visible
└── Problèmes de Qualité de Données Amont
    ├── Augmentation des valeurs nulles
    ├── Changements de schema des fournisseurs
    └── Echecs de pipeline ETL

Matrice de Métriques de Monitoring

CategorieMétriqueCe que ca détectéQuand l'utiliser
Qualité des donnéesTaux de null, incohérences de typeProblèmes pipeline amontToujours
Data DriftPSI, test KS, Jensen-ShannonChangements de distributionToujours
Prediction DriftDivergence de distribution des sortiesChangements de comportementQuand le ground truth est retardé
PerformanceAccuracy, F1, AUC, RMSEDegradation réelleQuand le ground truth est disponible
EquiteParite demographique, égalité des chancesDegradation d'equite par cohorteModèles reglementes
OpérationnelLatence p50/p95/p99, débit, taux d'erreurProblèmes infra/servingToujours

Comparaison d'Outils

FonctionnaliteEvidently AIWhyLabsArizeFiddlerNannyML
TypeOpen source + cloudCloudCloudCloudOpen source + cloud
Data DriftOuiOuiOuiOuiOui
Concept DriftOuiOuiOuiOuiOui (méthode CBPE)
Monitoring LLMOuiOuiOuiOuiNon
AlertesSeuils customAnomaliesAnomaliesCustomCustom
PrixGratuit (OSS) / cloud payantGratuit + payantPayantPayantGratuit (OSS) / payant

Seuils d'Alerte Recommandes

MétriqueVertJaune (Investiguer)Rouge (Action requise)
Data Drift (PSI)< 0,10,1 - 0,25> 0,25
Taux de null< baseline + 1%baseline + 1-5%> baseline + 5%
Chute d'accuracy< 2% vs baseline2-5% vs baseline> 5% vs baseline
Latence (p99)< 2x SLA2-5x SLA> 5x SLA
Taux d'erreur< 0,1%0,1-1%> 1%

Recommandations Stratégiques

  1. Commencez par le monitoring de qualité des données. La plupart des échecs ML en production sont des problèmes de pipeline.
  2. Monitorez les prédictions quand vous n'avez pas le ground truth. Le prédiction drift est un indicateur avance.
  3. Definissez les seuils selon l'impact business. Une chute de 3% sur un filtre spam est acceptable ; sur un diagnostic médical, non.
  4. Automatisez les declencheurs de reentrainement, mais gardez l'approbation humaine.
  5. Loggez tout. Entrees, sorties, latences, valeurs de features.

Ressources

Nous utilisons des cookies analytiques pour améliorer votre expérience. Aucune donnée personnelle n'est collectée.