Le paysage du calcul IA : GPU, TPU, silicium personnalisé et économies d'échelle
Le calcul est la contrainte limitante de l'IA moderne. Le choix du matériel — et la manière dont il est provisionné — détermine quels modèles peuvent être entraînés, à quel coût, et à quelle vitesse l'inférence peut être servie.
Tableau comparatif du matériel
| Puce | Fournisseur | Mémoire | BP mémoire | FP16 TFLOPS | Usage principal |
|---|---|---|---|---|---|
| H100 SXM | NVIDIA | 80 Go HBM3 | 3,35 To/s | 989 | Entraînement + inférence |
| H200 SXM | NVIDIA | 141 Go HBM3e | 4,8 To/s | 989 | Grands modèles |
| B200 | NVIDIA | 192 Go HBM3e | 8 To/s | 2 250 | Nouvelle génération |
| TPU v5p | 95 Go HBM | 2,76 To/s | ~459 | Entraînement JAX/TF | |
| Trainium2 | AWS | 96 Go HBM | 3,2 To/s | ~740 (est.) | Entraînement optimisé en coût |
| MI300X | AMD | 192 Go HBM3 | 5,3 To/s | 1 307 | Entraînement + inférence |
Comparaison des prix GPU cloud (à la demande, par heure)
| GPU | AWS | GCP | Azure | CoreWeave |
|---|---|---|---|---|
| H100 80 Go | 12,00 $ | 11,60 $ | 11,56 $ | 2,49 $ |
| A100 80 Go | 5,12 $ | 5,07 $ | 3,67 $ | 1,35 $ |
| L4 | 0,81 $ | 0,81 $ | 0,72 $ | N/A |
| TPU v5p | N/A | 4,20 $/puce | N/A | N/A |
Note : les tarifs GPU cloud sont très dynamiques. Les prix spot/préemptibles peuvent être inférieurs de 50 à 70 %.
Entraînement vs inférence : des stratégies matérielles différentes
L'entraînement requiert une mémoire massive (modèle + optimiseur + gradients), un calcul soutenu et un interconnect critique. L'inférence est en rafales, sensible à la latence, et bénéficie massivement de la quantification (INT8/INT4/FP8).
Considérations stratégiques
Le paysage matériel favorise les organisations capables de planifier leur stratégie de calcul sur trois horizons : immédiat (quels GPU cloud réserver), moyen terme (quelles filières de silicium personnalisé évaluer) et long terme (quels paris architecturaux suivre). Les écarts de coût de l'ordre de 10× entre fournisseurs et générations de puces font de la stratégie de calcul une décision de niveau direction.