Les Modèles de Fondation au-delà du Texte : Le Paysage Complet
Les modèles de fondation se sont étendus bien au-delà du langage. Le même paradigme -- pré-entraînement à grande échelle sur des données larges, puis adaptation à des tâches spécifiques -- couvre désormais la vision, le code, la science, l'audio et le raisonnement multimodal.
Taxonomie par Modalité
Les modèles de fondation couvrent désormais six grandes familles : langage (général, code, domaine), vision (classification, segmentation, génération, vidéo), multimodal (vision+langage, tout-à-tout, incarné), science (protéine, chimie, climat, mathématiques), audio (parole, musique) et robotique.
Matrice de Comparaison des Modèles
| Modèle | Modalité | Params | Ouvert/Fermé | Capacité Clé |
|---|---|---|---|---|
| GPT-4o | Texte+Vision+Audio | ~1.8T (est.) | Fermé | Meilleur raisonnement multimodal |
| Claude 3.5 Sonnet | Texte+Vision | Non divulgué | Fermé | Contexte long, sécurité |
| Llama-3 405B | Texte | 405B | Poids ouverts | Meilleur LLM ouvert |
| DINOv2 | Vision | 1.1B | Ouvert | Features visuelles auto-supervisées |
| SAM 2 | Vision (segm.) | 600M | Ouvert | Segmentation universelle |
| AlphaFold3 | Protéine+Ligand | Non divulgué | Partiellement ouvert | Prédiction de structure protéine-ligand |
| Whisper Large v3 | Audio | 1.5B | Ouvert | Reconnaissance vocale multilingue |
Paysage Ouvert vs Ferme
La dynamique entre modèles ouverts et fermés évolue rapidement. En 2024, les modèles ouverts comme Llama-3 405B ont commencé à rivaliser avec les modèles fermés sur la plupart des benchmarks. Cette pression concurrentielle réduit les prix des API et diminue les risques de dépendance.
Implications Stratégiques
Trois dynamiques clés :
- Convergence des modalités : les meilleurs modèles gèrent nativement plusieurs modalités
- Pression open-source : l'écart entre modèles ouverts et fermés se réduit à chaque cycle
- Spécialisation par domaine : les modèles génériques sont complétés par des modèles spécialisés qui surpassent les performances sur des tâches ciblées avec moins de calcul