Données Synthétiques : Quand les Données Réelles ne Suffisent Pas ou ne Sont Pas Autorisées
Les données synthétiques -- des données générées artificiellement qui imitent les propriétés statistiques de jeux de données réels -- sont passées de technique de niche à nécessité stratégique. Portées par les réglementations de confidentialité (RGPD, HIPAA), la rareté des données dans les domaines spécialisés et le besoin d'augmenter les ensembles d'entraînement.
Méthodes de Génération
Les principales familles de méthodes sont : les méthodes statistiques (copules, réseaux bayésiens, SMOTE), les modèles génératifs profonds (GANs, VAEs, diffusion), la génération basée sur les LLMs, la simulation (moteurs physiques, jumeaux numériques) et les méthodes basées sur des règles.
Comparaison des Méthodes
| Méthode | Type de Données | Confidentialité | Fidélité | Complexité |
|---|---|---|---|---|
| Statistique (copules) | Tabulaire | Élevée | Moyenne | Faible |
| CTGAN | Tabulaire | Élevée | Élevée | Moyenne |
| TabDDPM | Tabulaire | Élevée | Très élevée | Élevée |
| LLM | Tout structuré | Moyenne* | Élevée | Faible |
| Diffusion (images) | Image/Video | Élevée | Très élevée | Élevée |
| Simulation | Spécifique au domaine | Très élevée | Variable | Très élevée |
Cadre de Métriques de Qualité
| Métrique | Ce qu'elle mesure |
|---|---|
| Fidélité | Similarité statistique avec les données réelles |
| Diversité | Couverture de la distribution des données réelles |
| Confidentialité | Risque de re-identification |
| Utilité | Utilité pour la tâche en aval (TSTR) |
| Cohérence | Consistance logique des enregistrements |
| Équité | Préservation ou atténuation des biais |
Le Compromis Confidentialité-Utilité
La tension fondamentale dans les données synthétiques : une fidélité plus élevée signifie un risque de re-identification plus élevé. La confidentialité différentielle fournit des garanties mathématiques mais dégrade la qualité des données. L'approche pratique est de mesurer les deux axes explicitement et de choisir le point de fonctionnement en fonction des exigences réglementaires.