Foundation Models Beyond Text: The Full Landscape

Les modèles de fondation se sont étendus bien au-delà du langage. Le même paradigme -- pré-entraînement à grande échelle sur des données larges, puis adaptation à des tâches spécifiques -- couvre désormais la vision, le code, la science, l'audio et le raisonnement multimodal.

Taxonomie par Modalité

Les modèles de fondation couvrent désormais six grandes familles : langage (général, code, domaine), vision (classification, segmentation, génération, vidéo), multimodal (vision+langage, tout-à-tout, incarné), science (protéine, chimie, climat, mathématiques), audio (parole, musique) et robotique.

Matrice de Comparaison des Modèles

Modèle	Modalité	Params	Ouvert/Fermé	Capacité Clé
GPT-4o	Texte+Vision+Audio	~1.8T (est.)	Fermé	Meilleur raisonnement multimodal
Claude 3.5 Sonnet	Texte+Vision	Non divulgué	Fermé	Contexte long, sécurité
Llama-3 405B	Texte	405B	Poids ouverts	Meilleur LLM ouvert
DINOv2	Vision	1.1B	Ouvert	Features visuelles auto-supervisées
SAM 2	Vision (segm.)	600M	Ouvert	Segmentation universelle
AlphaFold3	Protéine+Ligand	Non divulgué	Partiellement ouvert	Prédiction de structure protéine-ligand
Whisper Large v3	Audio	1.5B	Ouvert	Reconnaissance vocale multilingue

Paysage Ouvert vs Ferme

La dynamique entre modèles ouverts et fermés évolue rapidement. En 2024, les modèles ouverts comme Llama-3 405B ont commencé à rivaliser avec les modèles fermés sur la plupart des benchmarks. Cette pression concurrentielle réduit les prix des API et diminue les risques de dépendance.

Implications Stratégiques

Trois dynamiques clés :

Convergence des modalités : les meilleurs modèles gèrent nativement plusieurs modalités
Pression open-source : l'écart entre modèles ouverts et fermés se réduit à chaque cycle
Spécialisation par domaine : les modèles génériques sont complétés par des modèles spécialisés qui surpassent les performances sur des tâches ciblées avec moins de calcul

Les Modèles de Fondation au-delà du Texte : Le Paysage Complet

Taxonomie par Modalité

Matrice de Comparaison des Modèles

Paysage Ouvert vs Ferme

Implications Stratégiques

Ressources