Politiques de Rétention des Données : Équilibrer Conformité, Coût et Utilité
#data-governance#compliance#finops#data-strategy
La plupart des organisations stockent leurs données indéfiniment par défaut. Cela crée des coûts croissants, un risque de conformité accru et une complexité de gouvernance. Une politique de rétention bien conçue définit combien de temps les données sont conservées, quand elles transitent entre les niveaux de stockage, et quand elles sont définitivement supprimées.
Exigences Réglementaires de Rétention
| Réglementation | Type de données | Rétention minimale | Rétention maximale | Notes |
|---|---|---|---|---|
| RGPD (UE) | Données personnelles | Non spécifiée | Aussi courte que nécessaire | Principe de minimisation |
| SOX (US) | Documents financiers | 7 ans | Pas de maximum | Piste d'audit pour sociétés cotées |
| HIPAA (US) | Dossiers médicaux | 6 ans | Pas de maximum | A partir de la création |
| PCI-DSS | Données de carte | Selon besoin métier | Minimiser le stockage | Ne pas stocker les données d'authentification |
| Fiscalité (variés) | Documents fiscaux | 3-10 ans selon pays | Pas de maximum | France : 6 ans, Allemagne : 10 ans |
| Droit du travail | Dossiers employés | 1-7 ans après départ | Pas de maximum | Varie selon la juridiction |
Diagramme du Cycle de Vie des Données
┌─────────┐ ┌──────────┐ ┌───────────┐ ┌──────────┐ ┌──────────┐
│ Création│───▶│ Stockage │───▶│ Archive │───▶│ Archive │───▶│Suppression│
│ │ │ Actif │ │ Tiède │ │ Froide │ │ / Purge │
└─────────┘ └──────────┘ └───────────┘ └──────────┘ └──────────┘
Chronologie: Jour 0 3-6 mois 1-3 ans 3-7 ans Fin de vie
Coût/Go: $$$ $$ $ centimes 0 $
Accès: Millisecondes Secondes Minutes-Heures N/A N/A
Matrice d'Impact sur les Coûts : Conserver vs Archiver vs Supprimer
| Volume | Stockage chaud | Archive tiède | Archive froide | Supprimer | Économie annuelle |
|---|---|---|---|---|---|
| 1 To | 276 $/an | 150 $/an | 48 $/an | 0 $/an | 276 $ |
| 10 To | 2 760 $/an | 1 500 $/an | 480 $/an | 0 $/an | 2 760 $ |
| 100 To | 27 600 $/an | 15 000 $/an | 4 800 $/an | 0 $/an | 27 600 $ |
| 1 Po | 276 000 $/an | 150 000 $/an | 48 000 $/an | 0 $/an | 276 000 $ |
Coûts cachés de la sur-rétention :
- Coûts de calcul pour scanner des datasets plus gros
- Overhead de gestion du catalogue et des métadonnées
- Risque de conformité (plus de données = plus de DCP = plus d'exposition)
- Temps d'ingénierie pour gérer des datasets hypertrophiés
Stratégie de Rétention par Catégorie
| Catégorie | Actif | Tiède | Froid | Suppression | Justification |
|---|---|---|---|---|---|
| Données transactionnelles | 1 an | 1-3 ans | 3-7 ans | Après 7 ans | Conformité SOX / fiscale |
| Comportement utilisateur | 3 mois | 3-12 mois | — | Après 12 mois | Utilité analytique décroît vite |
| DCP / profils clients | Selon besoin | — | — | Sur demande ou fin d'usage | Minimisation RGPD |
| Données d'entraînement ML | 6 mois | 6-24 mois | — | Après re-entraînement | Lignage de modèle |
| Logs / observabilité | 30 jours | 30-90 jours | — | Après 90 jours | Coût, faible valeur long terme |
Pièges Courants
- "Tout garder pour toujours" — le défaut qui crée des coûts et risques illimités
- Pas de revue juridique — périodes de rétention définies par l'ingénierie sans avis compliance
- Angle mort des sauvegardes — données supprimées du primaire mais persistant dans les backups
- Pas de différenciation DCP — appliquer la même rétention aux DCP et non-DCP
- Suppression manuelle — se reposer sur des humains au lieu de politiques de cycle de vie automatisées