GAN : l'art de l'apprentissage adversariel
Les réseaux antagonistes génératifs (GAN), introduits par Goodfellow et al. en 2014, opposent deux réseaux de neurones dans un jeu minimax. Le générateur crée de fausses données ; le discriminateur essaie de distinguer le vrai du faux. Par la compétition, le générateur apprend à produire des sorties de plus en plus réalistes.
Architecture
Boucle d'entraînement GAN
===========================
Bruit aléatoire z ──► ┌─────────────┐
│ Générateur │──► Fausses données
│ G(z) │ │
└──────────────┘ │
▼
┌──────────────┐
Données réelles x ────────────────────►│ Discriminateur│──► Vrai / Faux
│ D(x) │
└──────────────┘
│
┌───────────┴───────────┐
│ D veut classifier │
│ correctement (max) │
│ G veut tromper D │
│ (min) │
└────────────────────────┘
La fonction objectif :
Variantes de GAN
| Variante | Année | Innovation clé | Idéal pour |
|---|---|---|---|
| DCGAN | 2015 | Architecture convolutive pour un entraînement stable | Base de génération d'images |
| WGAN | 2017 | Distance de Wasserstein, pénalité de gradient | Stabilité d'entraînement |
| Conditional GAN | 2014 | Génération conditionnée par classe | Sortie contrôlée |
| Pix2Pix | 2017 | Traduction image-à-image appariée | Traduction supervisée |
| CycleGAN | 2017 | Traduction non appariée via cohérence cyclique | Transfert de style |
| StyleGAN | 2019 | Générateur basé style, croissance progressive | Synthèse de visages haute résolution |
| StyleGAN3 | 2021 | Génération sans aliasing | Synthèse prête pour la vidéo |
| GigaGAN | 2023 | GAN mis à l'échelle à 1 milliard de paramètres | Texte-vers-image à grande échelle |
Défis d'entraînement
Les GAN sont notoirement difficiles à entraîner :
Effondrement de modes : le générateur ne produit que quelques types de sorties qui trompent le discriminateur, ignorant la distribution complète des données. La fonction de perte WGAN et la discrimination par minibatch aident à atténuer cela.
Instabilité d'entraînement : le générateur et le discriminateur doivent rester en équilibre. Si le discriminateur devient trop fort, les gradients disparaissent pour le générateur. S'il est trop faible, le générateur ne reçoit aucun signal utile. Techniques : normalisation spectrale, croissance progressive, règle de mise à jour à deux échelles temporelles (TTUR).
Évaluation : il n'existe pas de perte unique corrélée à la qualité des sorties. Métriques courantes :
- FID (Fréchet Inception Distance) : plus bas est mieux, mesure la similarité de distribution
- IS (Inception Score) : plus haut est mieux, mesure qualité et diversité
- LPIPS : métrique de similarité perceptuelle
GAN vs modèles de diffusion
Les modèles de diffusion ont largement remplacé les GAN pour la génération d'images depuis 2022 :
| Aspect | GAN | Modèles de diffusion |
|---|---|---|
| Entraînement | Adversariel (instable) | Débruitage (stable, perte simple) |
| Couverture des modes | Sujet à l'effondrement de modes | Couverture complète de la distribution |
| Qualité des échantillons | Excellente (bien entraîné) | Excellente |
| Vitesse d'échantillonnage | Rapide (une seule passe) | Lente (nombreuses étapes de débruitage) |
| Contrôlabilité | Limitée sans conditionnement | Forte (guidance sans classifieur) |
| Statut actuel | Usages de niche, recherche | Dominant (DALL-E 3, Stable Diffusion, Midjourney) |
Les GAN restent pertinents pour les applications temps réel (super-résolution, amélioration vidéo) où la vitesse d'inférence en une seule passe compte, et pour les techniques basées discriminateur dans d'autres pipelines génératifs.
Applications pratiques utilisant encore les GAN
- Super-résolution : ESRGAN et Real-ESRGAN pour l'upscaling d'images et de vidéo
- Augmentation de données : génération de données synthétiques pour les classes déséquilibrées
- Détection d'anomalies : le discriminateur comme détecteur hors distribution
- Inpainting d'images : remplissage de régions manquantes avec du contenu contextualisé
- Adaptation de domaine : transfert de styles entre domaines (imagerie médicale, satellite)