tadata
Retour à l'accueil

Réseaux de neurones convolutifs : de LeNet aux architectures modernes

#deep-learning#computer-vision#neural-networks#cnn

Les réseaux de neurones convolutifs (CNN) restent le pilier de la vision par ordinateur. Comprendre leur évolution de LeNet-5 (1998) aux architectures modernes comme ConvNeXt révèle les principes fondamentaux de la conception en deep learning.

Briques de base

Un CNN empile trois types de couches :

Les couches convolutives appliquent des filtres apprenables (noyaux) qui glissent sur l'entrée, détectant des motifs locaux. Un noyau 3×33 \times 3 avec stride 1 sur une image 28×2828 \times 28 produit une carte de features 26×2626 \times 26. Chaque filtre apprend à détecter un motif spécifique — bords, textures, formes — avec une abstraction croissante dans les couches profondes.

Les couches de pooling réduisent les dimensions spatiales. Le max pooling prend la valeur maximale dans chaque fenêtre 2×22 \times 2, divisant par deux largeur et hauteur. Cela fournit une invariance par translation et réduit le calcul. L'average pooling et le global average pooling (GAP) sont des alternatives courantes.

Les couches entièrement connectées en fin de réseau aplatissent les cartes de features et les projettent vers les classes de sortie. Les architectures modernes remplacent souvent les couches FC par du GAP pour réduire les paramètres.

Architecture CNN (simplifiée)
==============================

Image d'entrée [3 x 224 x 224]
     │
     ▼
┌─────────────────┐
│ Conv 3x3, 64    │──► ReLU ──► BatchNorm
│ Conv 3x3, 64    │──► ReLU ──► BatchNorm
└────────┬────────┘
         ▼
    MaxPool 2x2         [64 x 112 x 112]
         │
         ▼
┌─────────────────┐
│ Conv 3x3, 128   │──► ReLU ──► BatchNorm
│ Conv 3x3, 128   │──► ReLU ──► BatchNorm
└────────┬────────┘
         ▼
    MaxPool 2x2         [128 x 56 x 56]
         │
         ▼
    ... (blocs plus profonds)
         │
         ▼
    Global Avg Pool     [512 x 1 x 1]
         │
         ▼
    FC ──► Softmax      [num_classes]

Évolution des architectures

ArchitectureAnnéeInnovation cléErreur Top-5 (ImageNet)Params
LeNet-51998Premier CNN pratique60K
AlexNet2012Entraînement GPU, ReLU, dropout15.3%61M
VGGNet2014Petits filtres 3x3, profondeur7.3%138M
GoogLeNet2014Modules Inception, convs 1x16.7%6.8M
ResNet2015Connexions résiduelles, 152 couches3.6%60M
DenseNet2017Connexions denses entre couches3.5%20M
EfficientNet2019Scaling composé (profondeur/largeur/résolution)2.9%66M
ConvNeXt2022ResNet modernisé avec astuces Transformer2.7%89M

La révolution ResNet

Les connexions résiduelles de ResNet ont résolu le problème de dégradation — les réseaux plus profonds étaient plus difficiles à entraîner, non pas à cause de la disparition du gradient, mais parce qu'apprendre des applications identité est difficile pour des couches non linéaires empilées. La formulation résiduelle F(x)+x\mathcal{F}(x) + x fait de l'identité le comportement par défaut, laissant les couches supplémentaires n'apprendre que le résidu.

Bloc résiduel
==============

Entrée x ─────────────────────────┐
    │                             │
    ▼                             │
 Conv 3x3 ──► BN ──► ReLU        │ (skip / raccourci)
    │                             │
    ▼                             │
 Conv 3x3 ──► BN                  │
    │                             │
    ▼                             │
  (+) ◄───────────────────────────┘
    │
    ▼
  ReLU
    │
    ▼
 Sortie : F(x) + x

Techniques modernes

Convolutions séparables en profondeur (MobileNet) : décomposent une convolution standard en une convolution par canal (depthwise) et une convolution ponctuelle (1x1). Réduit le calcul d'environ 88-9×9\times avec une perte de précision minimale. Essentiel pour le déploiement mobile et edge.

Attention dans les CNN : les blocs Squeeze-and-Excitation (SE) recalibrent les réponses par canal. CBAM ajoute une attention spatiale. Ces mécanismes aident le réseau à se concentrer sur les features pertinentes.

Augmentation de données à grande échelle : RandAugment, CutMix, MixUp et AugMax sont devenus standards. Ils agissent comme des régulariseurs et peuvent améliorer la précision top-1 de 1 à 3% sans changement architectural.

Distillation de connaissances : entraîner un petit CNN « élève » à imiter la distribution de sortie d'un grand modèle « professeur ». Les cibles douces portent plus d'information que les labels durs, permettant des modèles compacts qui conservent l'essentiel de la performance du professeur.

CNN vs Vision Transformers

Les Vision Transformers (ViT) traitent les images comme des séquences de patches utilisant l'auto-attention. Ils surpassent les CNN sur les grands jeux de données mais nécessitent plus de données et de calcul. Le paysage en 2026 :

AspectCNNVision Transformers
Biais inductifÉquivariance par translation intégréeDoit apprendre la structure spatiale
Efficacité donnéesFort avec peu de donnéesNécessite grands datasets ou pré-entraînement
ScalabilitéPlafonne en profondeur extrêmeScale bien avec données et calcul
Vitesse d'inférenceRapide, optimisé matérielPlus lent (attention quadratique)
Déploiement edgeOutillage mature (TFLite, CoreML)En amélioration mais plus lourd
Meilleur usageMobile, temps réel, données limitéesGrande échelle, haute précision

La tendance est à la convergence : ConvNeXt apporte les principes de conception Transformer aux CNN, tandis que des modèles comme CoAtNet et EfficientFormer combinent les deux approches.

Nous utilisons des cookies analytiques pour améliorer votre expérience. Aucune donnée personnelle n'est collectée.