Réseaux de neurones convolutifs : de LeNet aux architectures modernes
Les réseaux de neurones convolutifs (CNN) restent le pilier de la vision par ordinateur. Comprendre leur évolution de LeNet-5 (1998) aux architectures modernes comme ConvNeXt révèle les principes fondamentaux de la conception en deep learning.
Briques de base
Un CNN empile trois types de couches :
Les couches convolutives appliquent des filtres apprenables (noyaux) qui glissent sur l'entrée, détectant des motifs locaux. Un noyau avec stride 1 sur une image produit une carte de features . Chaque filtre apprend à détecter un motif spécifique — bords, textures, formes — avec une abstraction croissante dans les couches profondes.
Les couches de pooling réduisent les dimensions spatiales. Le max pooling prend la valeur maximale dans chaque fenêtre , divisant par deux largeur et hauteur. Cela fournit une invariance par translation et réduit le calcul. L'average pooling et le global average pooling (GAP) sont des alternatives courantes.
Les couches entièrement connectées en fin de réseau aplatissent les cartes de features et les projettent vers les classes de sortie. Les architectures modernes remplacent souvent les couches FC par du GAP pour réduire les paramètres.
Architecture CNN (simplifiée)
==============================
Image d'entrée [3 x 224 x 224]
│
▼
┌─────────────────┐
│ Conv 3x3, 64 │──► ReLU ──► BatchNorm
│ Conv 3x3, 64 │──► ReLU ──► BatchNorm
└────────┬────────┘
▼
MaxPool 2x2 [64 x 112 x 112]
│
▼
┌─────────────────┐
│ Conv 3x3, 128 │──► ReLU ──► BatchNorm
│ Conv 3x3, 128 │──► ReLU ──► BatchNorm
└────────┬────────┘
▼
MaxPool 2x2 [128 x 56 x 56]
│
▼
... (blocs plus profonds)
│
▼
Global Avg Pool [512 x 1 x 1]
│
▼
FC ──► Softmax [num_classes]
Évolution des architectures
| Architecture | Année | Innovation clé | Erreur Top-5 (ImageNet) | Params |
|---|---|---|---|---|
| LeNet-5 | 1998 | Premier CNN pratique | — | 60K |
| AlexNet | 2012 | Entraînement GPU, ReLU, dropout | 15.3% | 61M |
| VGGNet | 2014 | Petits filtres 3x3, profondeur | 7.3% | 138M |
| GoogLeNet | 2014 | Modules Inception, convs 1x1 | 6.7% | 6.8M |
| ResNet | 2015 | Connexions résiduelles, 152 couches | 3.6% | 60M |
| DenseNet | 2017 | Connexions denses entre couches | 3.5% | 20M |
| EfficientNet | 2019 | Scaling composé (profondeur/largeur/résolution) | 2.9% | 66M |
| ConvNeXt | 2022 | ResNet modernisé avec astuces Transformer | 2.7% | 89M |
La révolution ResNet
Les connexions résiduelles de ResNet ont résolu le problème de dégradation — les réseaux plus profonds étaient plus difficiles à entraîner, non pas à cause de la disparition du gradient, mais parce qu'apprendre des applications identité est difficile pour des couches non linéaires empilées. La formulation résiduelle fait de l'identité le comportement par défaut, laissant les couches supplémentaires n'apprendre que le résidu.
Bloc résiduel
==============
Entrée x ─────────────────────────┐
│ │
▼ │
Conv 3x3 ──► BN ──► ReLU │ (skip / raccourci)
│ │
▼ │
Conv 3x3 ──► BN │
│ │
▼ │
(+) ◄───────────────────────────┘
│
▼
ReLU
│
▼
Sortie : F(x) + x
Techniques modernes
Convolutions séparables en profondeur (MobileNet) : décomposent une convolution standard en une convolution par canal (depthwise) et une convolution ponctuelle (1x1). Réduit le calcul d'environ - avec une perte de précision minimale. Essentiel pour le déploiement mobile et edge.
Attention dans les CNN : les blocs Squeeze-and-Excitation (SE) recalibrent les réponses par canal. CBAM ajoute une attention spatiale. Ces mécanismes aident le réseau à se concentrer sur les features pertinentes.
Augmentation de données à grande échelle : RandAugment, CutMix, MixUp et AugMax sont devenus standards. Ils agissent comme des régulariseurs et peuvent améliorer la précision top-1 de 1 à 3% sans changement architectural.
Distillation de connaissances : entraîner un petit CNN « élève » à imiter la distribution de sortie d'un grand modèle « professeur ». Les cibles douces portent plus d'information que les labels durs, permettant des modèles compacts qui conservent l'essentiel de la performance du professeur.
CNN vs Vision Transformers
Les Vision Transformers (ViT) traitent les images comme des séquences de patches utilisant l'auto-attention. Ils surpassent les CNN sur les grands jeux de données mais nécessitent plus de données et de calcul. Le paysage en 2026 :
| Aspect | CNN | Vision Transformers |
|---|---|---|
| Biais inductif | Équivariance par translation intégrée | Doit apprendre la structure spatiale |
| Efficacité données | Fort avec peu de données | Nécessite grands datasets ou pré-entraînement |
| Scalabilité | Plafonne en profondeur extrême | Scale bien avec données et calcul |
| Vitesse d'inférence | Rapide, optimisé matériel | Plus lent (attention quadratique) |
| Déploiement edge | Outillage mature (TFLite, CoreML) | En amélioration mais plus lourd |
| Meilleur usage | Mobile, temps réel, données limitées | Grande échelle, haute précision |
La tendance est à la convergence : ConvNeXt apporte les principes de conception Transformer aux CNN, tandis que des modèles comme CoAtNet et EfficientFormer combinent les deux approches.