GANs: The Art of Adversarial Learning

Les réseaux antagonistes génératifs (GAN), introduits par Goodfellow et al. en 2014, opposent deux réseaux de neurones dans un jeu minimax. Le générateur crée de fausses données ; le discriminateur essaie de distinguer le vrai du faux. Par la compétition, le générateur apprend à produire des sorties de plus en plus réalistes.

Architecture

Boucle d'entraînement GAN
===========================

Bruit aléatoire z ──► ┌─────────────┐
                      │  Générateur  │──► Fausses données
                      │     G(z)     │        │
                      └──────────────┘        │
                                              ▼
                                       ┌──────────────┐
Données réelles x ────────────────────►│ Discriminateur│──► Vrai / Faux
                                       │    D(x)       │
                                       └──────────────┘
                                              │
                                  ┌───────────┴───────────┐
                                  │  D veut classifier     │
                                  │  correctement (max)    │
                                  │  G veut tromper D      │
                                  │  (min)                 │
                                  └────────────────────────┘

La fonction objectif :

$\min_G \max_D \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_z}[\log(1 - D(G(z)))]$

Variantes de GAN

Variante	Année	Innovation clé	Idéal pour
DCGAN	2015	Architecture convolutive pour un entraînement stable	Base de génération d'images
WGAN	2017	Distance de Wasserstein, pénalité de gradient	Stabilité d'entraînement
Conditional GAN	2014	Génération conditionnée par classe	Sortie contrôlée
Pix2Pix	2017	Traduction image-à-image appariée	Traduction supervisée
CycleGAN	2017	Traduction non appariée via cohérence cyclique	Transfert de style
StyleGAN	2019	Générateur basé style, croissance progressive	Synthèse de visages haute résolution
StyleGAN3	2021	Génération sans aliasing	Synthèse prête pour la vidéo
GigaGAN	2023	GAN mis à l'échelle à 1 milliard de paramètres	Texte-vers-image à grande échelle

Défis d'entraînement

Les GAN sont notoirement difficiles à entraîner :

Effondrement de modes : le générateur ne produit que quelques types de sorties qui trompent le discriminateur, ignorant la distribution complète des données. La fonction de perte WGAN et la discrimination par minibatch aident à atténuer cela.

Instabilité d'entraînement : le générateur et le discriminateur doivent rester en équilibre. Si le discriminateur devient trop fort, les gradients disparaissent pour le générateur. S'il est trop faible, le générateur ne reçoit aucun signal utile. Techniques : normalisation spectrale, croissance progressive, règle de mise à jour à deux échelles temporelles (TTUR).

Évaluation : il n'existe pas de perte unique corrélée à la qualité des sorties. Métriques courantes :

FID (Fréchet Inception Distance) : plus bas est mieux, mesure la similarité de distribution
IS (Inception Score) : plus haut est mieux, mesure qualité et diversité
LPIPS : métrique de similarité perceptuelle

GAN vs modèles de diffusion

Les modèles de diffusion ont largement remplacé les GAN pour la génération d'images depuis 2022 :

Aspect	GAN	Modèles de diffusion
Entraînement	Adversariel (instable)	Débruitage (stable, perte simple)
Couverture des modes	Sujet à l'effondrement de modes	Couverture complète de la distribution
Qualité des échantillons	Excellente (bien entraîné)	Excellente
Vitesse d'échantillonnage	Rapide (une seule passe)	Lente (nombreuses étapes de débruitage)
Contrôlabilité	Limitée sans conditionnement	Forte (guidance sans classifieur)
Statut actuel	Usages de niche, recherche	Dominant (DALL-E 3, Stable Diffusion, Midjourney)

Les GAN restent pertinents pour les applications temps réel (super-résolution, amélioration vidéo) où la vitesse d'inférence en une seule passe compte, et pour les techniques basées discriminateur dans d'autres pipelines génératifs.

Applications pratiques utilisant encore les GAN

Super-résolution : ESRGAN et Real-ESRGAN pour l'upscaling d'images et de vidéo
Augmentation de données : génération de données synthétiques pour les classes déséquilibrées
Détection d'anomalies : le discriminateur comme détecteur hors distribution
Inpainting d'images : remplissage de régions manquantes avec du contenu contextualisé
Adaptation de domaine : transfert de styles entre domaines (imagerie médicale, satellite)