Small Language Models: Why Smaller Is Sometimes Better

Le récit de l'IA de pointé se concentre sur des modèles toujours plus grands, mais une révolution parallele se produit a l'autre extremite du spectre. Les petits modèles de langage (SLM) -- généralement sous 10B paramètres -- atteignent des capacites surprenantes grace a de meilleures données d'entraînement, la distillation et des innovations architecturales.

Taille du Modèle vs Performance

La plage 7-14B capture 75-85% des performances du modèle de pointé a 3-5% du cout. Un Phi-3 Medium a 14B atteint 78 au MMLU, contre 88.7 pour GPT-4o -- un écart de 12% pour une difference de cout de 40x.

Comparaison des Techniques de Compression

Technique	Réduction de Taille	Impact sur la Qualité	Gain de Vitesse
Quantification INT8	2x	Minimal (<1%)	1.5-2x
Quantification INT4	4x	Faible (1-3%)	2-3x
GPTQ/AWQ	4x	Tres faible	2-3x
GGUF (llama.cpp)	2-8x	Variable selon le niveau	Optimise CPU
Distillation	Sur mesuré	Moderee (5-15%)	Proportionnel a la taille
Elagage structuré	1.5-3x	Moderee	1.5-2x

Matrice de Déploiement par Plateforme

Plateforme	Taille Max	Latence	Cas d'Usage
Smartphone	~3B (4-bit)	20-50 tok/s	Assistant embarque
Navigateur	~3B (4-bit)	10-30 tok/s	Apps privées, demos
Edge (RPi, Jetson)	~7B (4-bit)	5-20 tok/s	IoT, traitement local
Laptop (CPU)	~13B (4-bit)	15-40 tok/s	Dev local, hors ligne
Laptop (GPU)	~30B (4-bit)	30-80 tok/s	Développement
Serveur (1 GPU)	~70B (4-bit)	50-150 tok/s	Inférence production
API Cloud	Illimite	50-200 tok/s	Tous

Quand Choisir Petit vs Grand

Choisir un SLM quand : tâche unique bien définie, latence critique, cout par requête minimal, confidentialite imposant le on-device, volume élevé, domaine spécifique avec bonnes données de fine-tuning.

Choisir un grand modèle quand : raisonnement multi-étapes complexe requis, connaissances larges nécessaires, types de tâches imprevisibles, qualité primordiale.

Pattern hybride (de plus en plus courant) : SLM pour le routage/classification, grand modèle pour les cas complexes. Le grand modèle généré les données d'entraînement, le SLM sert en production.

Petits Modèles de Langage : Pourquoi Plus Petit Est Parfois Mieux

Taille du Modèle vs Performance

Comparaison des Techniques de Compression

Matrice de Déploiement par Plateforme

Quand Choisir Petit vs Grand

Ressources