Recurrent Neural Networks: Sequence Modeling Before Transformers

Les réseaux de neurones récurrents (RNN) étaient l'architecture dominante pour la modélisation de séquences avant la prise de pouvoir des Transformers. Comprendre les RNN, LSTM et GRU reste essentiel — ils sont encore utilisés sur les appareils edge, les systèmes temps réel et la prévision de séries temporelles où le surcoût des Transformers est trop élevé.

Le principe de récurrence

Un réseau feedforward traite chaque entrée indépendamment. Un RNN maintient un état caché $h_t$ qui transporte l'information des pas de temps précédents :

$h_t = \tanh(W_{hh} h_{t-1} + W_{xh} x_t + b_h)$ $y_t = W_{hy} h_t + b_y$

RNN déroulé dans le temps
===========================

x_1       x_2       x_3       x_4
 │         │         │         │
 ▼         ▼         ▼         ▼
┌───┐     ┌───┐     ┌───┐     ┌───┐
│ h │────►│ h │────►│ h │────►│ h │
└─┬─┘     └─┬─┘     └─┬─┘     └─┬─┘
  │         │         │         │
  ▼         ▼         ▼         ▼
 y_1       y_2       y_3       y_4

Les mêmes poids $W_{hh}$ , $W_{xh}$ sont partagés à travers tous les pas de temps — c'est ce qui rend les RNN efficaces en paramètres pour des séquences de toute longueur.

Le problème du gradient qui disparaît

Entraîner les RNN via la rétropropagation à travers le temps (BPTT) nécessite de calculer des gradients à travers de nombreux pas de temps. Le gradient de la perte par rapport aux premiers états cachés implique une multiplication répétée par $W_{hh}$ :

$\frac{\partial h_t}{\partial h_1} = \prod_{i=2}^{t} \frac{\partial h_i}{\partial h_{i-1}}$

Si les valeurs propres de $W_{hh}$ sont < 1, les gradients diminuent exponentiellement (disparition). Si > 1, ils explosent. En pratique, les RNN classiques peinent à apprendre des dépendances au-delà de ~10-20 pas de temps.

LSTM : Long Short-Term Memory

Les LSTM (Hochreiter & Schmidhuber, 1997) résolvent le problème du gradient qui disparaît avec un état de cellule $c_t$ qui traverse le temps avec une transformation minimale, plus trois portes qui contrôlent le flux d'information :

Porte	Formule	Rôle
Oubli	$f_t = \sigma(W_f [h_{t-1}, x_t] + b_f)$	Quoi effacer de l'état de cellule
Entrée	$i_t = \sigma(W_i [h_{t-1}, x_t] + b_i)$	Quelle nouvelle info stocker
Sortie	$o_t = \sigma(W_o [h_{t-1}, x_t] + b_o)$	Quoi produire depuis l'état de cellule

La mise à jour de l'état de cellule :

$c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t$

où $\tilde{c}_t = \tanh(W_c [h_{t-1}, x_t] + b_c)$ est l'état candidat.

La porte d'oubli est l'innovation clé : quand $f_t \approx 1$ , les gradients circulent sans changement, permettant l'apprentissage sur des centaines de pas de temps.

GRU : Gated Recurrent Unit

Les GRU (Cho et al., 2014) simplifient les LSTM en fusionnant l'état de cellule et l'état caché en un seul, avec seulement deux portes :

Porte	Rôle
Réinitialisation ( $r_t$ )	Contrôle combien d'état passé oublier
Mise à jour ( $z_t$ )	Équilibre entre ancien et nouvel état (remplace oubli + entrée)

Les GRU ont moins de paramètres que les LSTM et s'entraînent plus vite, avec des performances comparables sur la plupart des tâches. Ils sont préférés quand le calcul est contraint.

Variantes d'architecture

Architecture	Cas d'usage	Caractéristique clé
RNN classique	Séquences courtes, motifs simples	Minimal, rapide
LSTM	Dépendances à longue portée	État de cellule + 3 portes
GRU	Longues séquences, ressources limitées	2 portes, moins de paramètres
RNN bidirectionnel	Contexte complet nécessaire (NER, traduction)	Passe avant + arrière
Encodeur-Décodeur	Seq-to-seq (traduction, résumé)	Compresser → générer
Attention + RNN	Longues séquences avec focus sélectif	Attention Bahdanau/Luong

RNN vs Transformers

Aspect	RNN/LSTM	Transformers
Traitement séquentiel	Séquentiel (O(n) étapes)	Parallèle (O(1) profondeur)
Dépendances longue portée	Se dégrade avec la distance	L'auto-attention capture toute distance
Vitesse d'entraînement	Lente (séquentiel)	Rapide (parallélisable)
Empreinte mémoire	O(1) par étape	O(n²) matrice d'attention
Inférence (streaming)	Naturelle — traite jeton par jeton	Nécessite la séquence complète ou KV cache
Meilleur usage aujourd'hui	Edge, temps réel, séries temporelles	NLP, vision, séquences en général

Où les RNN gagnent encore

Streaming temps réel : les RNN traitent un jeton à la fois avec une mémoire constante. Pour l'audio en direct, les données de capteurs ou les ticks financiers, c'est un choix naturel.

Déploiement edge : un LSTM avec 500K paramètres peut tourner sur un microcontrôleur. Un Transformer de capacité similaire nécessite 10-100x plus de paramètres.

Prévision de séries temporelles : pour des séries temporelles univariées ou de faible dimension, les LSTM restent compétitifs avec les Transformers et sont plus simples à entraîner et déployer.

Modèles d'espace d'état : la récente famille S4/Mamba combine le traitement séquentiel type RNN avec des performances type Transformer, suggérant que la récurrence n'est pas morte — elle évolue simplement.