The NLP Landscape: From Rules to Agents

Le Traitement Automatique du Langage a connu plus de transformation en cinq ans que durant les cinquante précédentes. Le domaine est passé de règles manuelles et modèles statistiques à des modèles fondamentaux qui comprennent et génèrent le langage à un niveau quasi humain.

Chronologie de l'Évolution NLP

1960s-1990s         2000s-2012          2013-2017           2018-2022           2023-2026
REGLES              ML STATISTIQUE      DEEP LEARNING       TRANSFORMERS        LLMs & AGENTS
+-----------+     +-----------+      +-----------+       +-----------+       +-----------+
| Regex     |     | Naive     |      | Word2Vec  |       | BERT      |       | GPT-4     |
| Grammaires|     | Bayes     |      | GloVe     |       | GPT-2/3   |       | Claude    |
| ELIZA     |     | SVM       |      | LSTMs     |       | T5        |       | Gemini    |
| Systèmes  |     | CRF       |      | Seq2Seq   |       | RoBERTa   |       | Llama 3   |
| experts   |     | TF-IDF    |      | Attention  |       |           |       | Agents    |
+-----------+     +-----------+      +-----------+       +-----------+       +-----------+
   Règles           Feature            Représentations     Pré-entraînement    Prompt +
   manuelles        engineering        apprises            + fine-tune         orchestration

Effort:    Mois/tâche     Semaines/tâche   Jours/tâche     Heures/tâche     Minutes/tâche
Données:   Règles seules  10K+ étiquetées  1K+ étiquetées  100+ étiquetées  0-100 exemples

Taxonomie des Tâches NLP

Catégorie	Tâches spécifiques	Approche traditionnelle	Approche moderne (2026)
Classification de texte	Sentiment, sujet, intention	TF-IDF + SVM/NB	BERT fine-tune ou LLM zéro-shot
Reconnaissance d'entites	Personne, org, lieu	CRF, BiLSTM-CRF	Classificateur fine-tune ou extraction LLM
Résumé	Extractif, abstractif	TextRank, Lead-3	LLM (prompt ou fine-tune)
Traduction	Paires de langues	Traduction par phrases	LLM ou NMT dédié (NLLB)
Question-Réponse	Extractif, génératif	Modèles de compréhension	RAG + LLM
Génération de texte	Écriture, code, email	Templates, chaînes de Markov	LLMs
IA conversationnelle	Chatbots, assistants, agents	Règles / classification d'intention	LLM + outils + mémoire
Recherche sémantique	Récupération de documents	BM25 / TF-IDF	Embeddings + recherche vectorielle

Comparaison des Familles de Modèles

Famille	Modèles	Taille	Forces	Faiblesses	Licence
GPT	GPT-4o, GPT-4o-mini	Inconnu (API)	Large capacité, outils, vision	Fermé, coûteux à l'échelle	Propriétaire
Claude	Opus 4, Sonnet 4, Haiku	Inconnu (API)	Long contexte (200K), sûreté	Fermé	Propriétaire
Gemini	2.0 Pro, 2.0 Flash	Inconnu (API)	Contexte 2M, multimodal	Fermé (GCP)	Propriétaire
Llama	3.1 (8B-405B)	8B-405B	Ouvert, performant, fine-tunable	Grands modèles = gros GPUs	Open (Meta)
Mistral	Large, Nemo, Mixtral	7B-176B	MoE efficace, multilingue	Communauté plus petite	Apache 2.0
BERT-family	BERT, RoBERTa, DeBERTa	110M-350M	Rapide, efficace	Encodeur seul, pas de génération	Ouvert

Matrice de Capacités Multilingues

Modèle	Français	Anglais	Allemand	Espagnol	Chinois	Code
GPT-4o	Excellent	Excellent	Excellent	Excellent	Très bon	Excellent
Claude Sonnet 4	Excellent	Excellent	Très bon	Très bon	Bon	Excellent
Gemini 2.0 Pro	Excellent	Excellent	Excellent	Excellent	Très bon	Excellent
Llama 3.1 70B	Très bon	Excellent	Bon	Très bon	Bon	Très bon
Mistral Large	Excellent	Excellent	Très bon	Très bon	Bon	Très bon

Le Paysage NLP : Des Règles aux Agents

Chronologie de l'Évolution NLP

Taxonomie des Tâches NLP

Comparaison des Familles de Modèles

Matrice de Capacités Multilingues

Ressources