Convolutional Neural Networks: From LeNet to Modern Architectures

Les réseaux de neurones convolutifs (CNN) restent le pilier de la vision par ordinateur. Comprendre leur évolution de LeNet-5 (1998) aux architectures modernes comme ConvNeXt révèle les principes fondamentaux de la conception en deep learning.

Briques de base

Un CNN empile trois types de couches :

Les couches convolutives appliquent des filtres apprenables (noyaux) qui glissent sur l'entrée, détectant des motifs locaux. Un noyau $3 \times 3$ avec stride 1 sur une image $28 \times 28$ produit une carte de features $26 \times 26$ . Chaque filtre apprend à détecter un motif spécifique — bords, textures, formes — avec une abstraction croissante dans les couches profondes.

Les couches de pooling réduisent les dimensions spatiales. Le max pooling prend la valeur maximale dans chaque fenêtre $2 \times 2$ , divisant par deux largeur et hauteur. Cela fournit une invariance par translation et réduit le calcul. L'average pooling et le global average pooling (GAP) sont des alternatives courantes.

Les couches entièrement connectées en fin de réseau aplatissent les cartes de features et les projettent vers les classes de sortie. Les architectures modernes remplacent souvent les couches FC par du GAP pour réduire les paramètres.

Architecture CNN (simplifiée)
==============================

Image d'entrée [3 x 224 x 224]
     │
     ▼
┌─────────────────┐
│ Conv 3x3, 64    │──► ReLU ──► BatchNorm
│ Conv 3x3, 64    │──► ReLU ──► BatchNorm
└────────┬────────┘
         ▼
    MaxPool 2x2         [64 x 112 x 112]
         │
         ▼
┌─────────────────┐
│ Conv 3x3, 128   │──► ReLU ──► BatchNorm
│ Conv 3x3, 128   │──► ReLU ──► BatchNorm
└────────┬────────┘
         ▼
    MaxPool 2x2         [128 x 56 x 56]
         │
         ▼
    ... (blocs plus profonds)
         │
         ▼
    Global Avg Pool     [512 x 1 x 1]
         │
         ▼
    FC ──► Softmax      [num_classes]

Évolution des architectures

Architecture	Année	Innovation clé	Erreur Top-5 (ImageNet)	Params
LeNet-5	1998	Premier CNN pratique	—	60K
AlexNet	2012	Entraînement GPU, ReLU, dropout	15.3%	61M
VGGNet	2014	Petits filtres 3x3, profondeur	7.3%	138M
GoogLeNet	2014	Modules Inception, convs 1x1	6.7%	6.8M
ResNet	2015	Connexions résiduelles, 152 couches	3.6%	60M
DenseNet	2017	Connexions denses entre couches	3.5%	20M
EfficientNet	2019	Scaling composé (profondeur/largeur/résolution)	2.9%	66M
ConvNeXt	2022	ResNet modernisé avec astuces Transformer	2.7%	89M

La révolution ResNet

Les connexions résiduelles de ResNet ont résolu le problème de dégradation — les réseaux plus profonds étaient plus difficiles à entraîner, non pas à cause de la disparition du gradient, mais parce qu'apprendre des applications identité est difficile pour des couches non linéaires empilées. La formulation résiduelle $\mathcal{F}(x) + x$ fait de l'identité le comportement par défaut, laissant les couches supplémentaires n'apprendre que le résidu.

Bloc résiduel
==============

Entrée x ─────────────────────────┐
    │                             │
    ▼                             │
 Conv 3x3 ──► BN ──► ReLU        │ (skip / raccourci)
    │                             │
    ▼                             │
 Conv 3x3 ──► BN                  │
    │                             │
    ▼                             │
  (+) ◄───────────────────────────┘
    │
    ▼
  ReLU
    │
    ▼
 Sortie : F(x) + x

Techniques modernes

Convolutions séparables en profondeur (MobileNet) : décomposent une convolution standard en une convolution par canal (depthwise) et une convolution ponctuelle (1x1). Réduit le calcul d'environ $8$ - $9\times$ avec une perte de précision minimale. Essentiel pour le déploiement mobile et edge.

Attention dans les CNN : les blocs Squeeze-and-Excitation (SE) recalibrent les réponses par canal. CBAM ajoute une attention spatiale. Ces mécanismes aident le réseau à se concentrer sur les features pertinentes.

Augmentation de données à grande échelle : RandAugment, CutMix, MixUp et AugMax sont devenus standards. Ils agissent comme des régulariseurs et peuvent améliorer la précision top-1 de 1 à 3% sans changement architectural.

Distillation de connaissances : entraîner un petit CNN « élève » à imiter la distribution de sortie d'un grand modèle « professeur ». Les cibles douces portent plus d'information que les labels durs, permettant des modèles compacts qui conservent l'essentiel de la performance du professeur.

CNN vs Vision Transformers

Les Vision Transformers (ViT) traitent les images comme des séquences de patches utilisant l'auto-attention. Ils surpassent les CNN sur les grands jeux de données mais nécessitent plus de données et de calcul. Le paysage en 2026 :

Aspect	CNN	Vision Transformers
Biais inductif	Équivariance par translation intégrée	Doit apprendre la structure spatiale
Efficacité données	Fort avec peu de données	Nécessite grands datasets ou pré-entraînement
Scalabilité	Plafonne en profondeur extrême	Scale bien avec données et calcul
Vitesse d'inférence	Rapide, optimisé matériel	Plus lent (attention quadratique)
Déploiement edge	Outillage mature (TFLite, CoreML)	En amélioration mais plus lourd
Meilleur usage	Mobile, temps réel, données limitées	Grande échelle, haute précision

La tendance est à la convergence : ConvNeXt apporte les principes de conception Transformer aux CNN, tandis que des modèles comme CoAtNet et EfficientFormer combinent les deux approches.