Petits Modèles de Langage : Pourquoi Plus Petit Est Parfois Mieux
Le récit de l'IA de pointé se concentre sur des modèles toujours plus grands, mais une révolution parallele se produit a l'autre extremite du spectre. Les petits modèles de langage (SLM) -- généralement sous 10B paramètres -- atteignent des capacites surprenantes grace a de meilleures données d'entraînement, la distillation et des innovations architecturales.
Taille du Modèle vs Performance
La plage 7-14B capture 75-85% des performances du modèle de pointé a 3-5% du cout. Un Phi-3 Medium a 14B atteint 78 au MMLU, contre 88.7 pour GPT-4o -- un écart de 12% pour une difference de cout de 40x.
Comparaison des Techniques de Compression
| Technique | Réduction de Taille | Impact sur la Qualité | Gain de Vitesse |
|---|---|---|---|
| Quantification INT8 | 2x | Minimal (<1%) | 1.5-2x |
| Quantification INT4 | 4x | Faible (1-3%) | 2-3x |
| GPTQ/AWQ | 4x | Tres faible | 2-3x |
| GGUF (llama.cpp) | 2-8x | Variable selon le niveau | Optimise CPU |
| Distillation | Sur mesuré | Moderee (5-15%) | Proportionnel a la taille |
| Elagage structuré | 1.5-3x | Moderee | 1.5-2x |
Matrice de Déploiement par Plateforme
| Plateforme | Taille Max | Latence | Cas d'Usage |
|---|---|---|---|
| Smartphone | ~3B (4-bit) | 20-50 tok/s | Assistant embarque |
| Navigateur | ~3B (4-bit) | 10-30 tok/s | Apps privées, demos |
| Edge (RPi, Jetson) | ~7B (4-bit) | 5-20 tok/s | IoT, traitement local |
| Laptop (CPU) | ~13B (4-bit) | 15-40 tok/s | Dev local, hors ligne |
| Laptop (GPU) | ~30B (4-bit) | 30-80 tok/s | Développement |
| Serveur (1 GPU) | ~70B (4-bit) | 50-150 tok/s | Inférence production |
| API Cloud | Illimite | 50-200 tok/s | Tous |
Quand Choisir Petit vs Grand
Choisir un SLM quand : tâche unique bien définie, latence critique, cout par requête minimal, confidentialite imposant le on-device, volume élevé, domaine spécifique avec bonnes données de fine-tuning.
Choisir un grand modèle quand : raisonnement multi-étapes complexe requis, connaissances larges nécessaires, types de tâches imprevisibles, qualité primordiale.
Pattern hybride (de plus en plus courant) : SLM pour le routage/classification, grand modèle pour les cas complexes. Le grand modèle généré les données d'entraînement, le SLM sert en production.