tadata
Retour à l'accueil

Gestion des Incidents : Construire une Culture de Fiabilité

#sre#devops#incident-management#reliability

La gestion des incidents n'est pas une question d'outils -- c'est une question de personnes, de processus et d'apprentissage. Les organisations qui gèrent bien les incidents n'ont pas moins de pannes ; elles récupèrent plus vite et apprennent davantage de chacune.

Cycle de Vie d'un Incident

┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐
│ Détecter │───>│  Trier   │───>│ Atténuer │───>│ Résoudre │───>│ Apprendre│
└──────────┘    └──────────┘    └──────────┘    └──────────┘    └──────────┘
     │               │               │               │               │
  Alertes        Sévérité       War room        Cause racine    Postmortem
  Anomalie       Nommer IC      Communiquer     Déployer fix    Actions
  Signalement    Notifier       Rollback        Vérifier        Partager
                 parties        Feature flag    Clôturer        Maj runbooks
                 prenantes

Matrice de Sévérité

SévéritéImpactExemplesTemps de RéponseCadence de MajQui est Alerte
SEV1 / P1Panne totale, risque de perte de donnéesProduction down, paiements en échec< 5 minToutes les 15 minAstreinte + Manager + VP
SEV2 / P2Fonctionnalité majeure dégradéeRecherche cassée, latence > 10x< 15 minToutes les 30 minAstreinte + Manager
SEV3 / P3Fonctionnalité mineure dégradée, contournement possibleDashboard lent, intégration non critique down< 1 heureToutes les 2hÉquipe d'astreinte
SEV4 / P4Problème cosmétique, aucun impact utilisateurBruit dans les logs, bug mineur UIJour ouvré suivantQuotidienneBacklog équipe
SEV5 / P5Informationnel, risque potentielTendance capacité, certificat expirantSprint planifiéHebdomadaireBacklog équipe

Framework de Métriques

MétriqueDéfinitionCible (Org Mature)Comment Mesurer
MTTDTemps moyen de détection< 5 minTimestamp alerte - début panne
MTTATemps moyen d'acquittement< 5 min (P1)Timestamp ack - timestamp alerte
MTTMTemps moyen d'atténuation< 30 min (P1)Timestamp atténuation - détection
MTTRTemps moyen de résolution< 4 heures (P1)Timestamp résolution - détection
MTBFTemps moyen entre pannesTendance à la hausseAnalyse de fréquence des incidents

Construire une Culture Saine

L'astreinte ne devrait pas être pénible. Si l'astreinte est redoutée, c'est le signe de problèmes systémiques : trop d'alertes, runbooks insuffisants, ou manque d'automatisation.

Pratiquer les incidents. Organisez régulièrement des game days et du chaos engineering. Les équipes qui pratiquent la réponse aux incidents performent nettement mieux en situation réelle.

Partager largement. Publiez les postmortems à toute l'organisation. La valeur d'apprentissage d'un incident est proportionnelle au nombre de personnes qui lisent le postmortem.

Règle fondamentale : Les postmortems doivent être sans blâme. Se concentrer sur les systèmes et processus, jamais sur les individus.

Ressources

:::

Nous utilisons des cookies analytiques pour améliorer votre expérience. Aucune donnée personnelle n'est collectée.