Réseaux de neurones récurrents : modélisation séquentielle avant les Transformers
Les réseaux de neurones récurrents (RNN) étaient l'architecture dominante pour la modélisation de séquences avant la prise de pouvoir des Transformers. Comprendre les RNN, LSTM et GRU reste essentiel — ils sont encore utilisés sur les appareils edge, les systèmes temps réel et la prévision de séries temporelles où le surcoût des Transformers est trop élevé.
Le principe de récurrence
Un réseau feedforward traite chaque entrée indépendamment. Un RNN maintient un état caché qui transporte l'information des pas de temps précédents :
RNN déroulé dans le temps
===========================
x_1 x_2 x_3 x_4
│ │ │ │
▼ ▼ ▼ ▼
┌───┐ ┌───┐ ┌───┐ ┌───┐
│ h │────►│ h │────►│ h │────►│ h │
└─┬─┘ └─┬─┘ └─┬─┘ └─┬─┘
│ │ │ │
▼ ▼ ▼ ▼
y_1 y_2 y_3 y_4
Les mêmes poids , sont partagés à travers tous les pas de temps — c'est ce qui rend les RNN efficaces en paramètres pour des séquences de toute longueur.
Le problème du gradient qui disparaît
Entraîner les RNN via la rétropropagation à travers le temps (BPTT) nécessite de calculer des gradients à travers de nombreux pas de temps. Le gradient de la perte par rapport aux premiers états cachés implique une multiplication répétée par :
Si les valeurs propres de sont < 1, les gradients diminuent exponentiellement (disparition). Si > 1, ils explosent. En pratique, les RNN classiques peinent à apprendre des dépendances au-delà de ~10-20 pas de temps.
LSTM : Long Short-Term Memory
Les LSTM (Hochreiter & Schmidhuber, 1997) résolvent le problème du gradient qui disparaît avec un état de cellule qui traverse le temps avec une transformation minimale, plus trois portes qui contrôlent le flux d'information :
| Porte | Formule | Rôle |
|---|---|---|
| Oubli | Quoi effacer de l'état de cellule | |
| Entrée | Quelle nouvelle info stocker | |
| Sortie | Quoi produire depuis l'état de cellule |
La mise à jour de l'état de cellule :
où est l'état candidat.
La porte d'oubli est l'innovation clé : quand , les gradients circulent sans changement, permettant l'apprentissage sur des centaines de pas de temps.
GRU : Gated Recurrent Unit
Les GRU (Cho et al., 2014) simplifient les LSTM en fusionnant l'état de cellule et l'état caché en un seul, avec seulement deux portes :
| Porte | Rôle |
|---|---|
| Réinitialisation () | Contrôle combien d'état passé oublier |
| Mise à jour () | Équilibre entre ancien et nouvel état (remplace oubli + entrée) |
Les GRU ont moins de paramètres que les LSTM et s'entraînent plus vite, avec des performances comparables sur la plupart des tâches. Ils sont préférés quand le calcul est contraint.
Variantes d'architecture
| Architecture | Cas d'usage | Caractéristique clé |
|---|---|---|
| RNN classique | Séquences courtes, motifs simples | Minimal, rapide |
| LSTM | Dépendances à longue portée | État de cellule + 3 portes |
| GRU | Longues séquences, ressources limitées | 2 portes, moins de paramètres |
| RNN bidirectionnel | Contexte complet nécessaire (NER, traduction) | Passe avant + arrière |
| Encodeur-Décodeur | Seq-to-seq (traduction, résumé) | Compresser → générer |
| Attention + RNN | Longues séquences avec focus sélectif | Attention Bahdanau/Luong |
RNN vs Transformers
| Aspect | RNN/LSTM | Transformers |
|---|---|---|
| Traitement séquentiel | Séquentiel (O(n) étapes) | Parallèle (O(1) profondeur) |
| Dépendances longue portée | Se dégrade avec la distance | L'auto-attention capture toute distance |
| Vitesse d'entraînement | Lente (séquentiel) | Rapide (parallélisable) |
| Empreinte mémoire | O(1) par étape | O(n²) matrice d'attention |
| Inférence (streaming) | Naturelle — traite jeton par jeton | Nécessite la séquence complète ou KV cache |
| Meilleur usage aujourd'hui | Edge, temps réel, séries temporelles | NLP, vision, séquences en général |
Où les RNN gagnent encore
Streaming temps réel : les RNN traitent un jeton à la fois avec une mémoire constante. Pour l'audio en direct, les données de capteurs ou les ticks financiers, c'est un choix naturel.
Déploiement edge : un LSTM avec 500K paramètres peut tourner sur un microcontrôleur. Un Transformer de capacité similaire nécessite 10-100x plus de paramètres.
Prévision de séries temporelles : pour des séries temporelles univariées ou de faible dimension, les LSTM restent compétitifs avec les Transformers et sont plus simples à entraîner et déployer.
Modèles d'espace d'état : la récente famille S4/Mamba combine le traitement séquentiel type RNN avec des performances type Transformer, suggérant que la récurrence n'est pas morte — elle évolue simplement.