Pourquoi tous les agents IA parlent-ils aujourd'hui de multimodalité et d'appels d'outils, alors qu'en pratique, c'est toujours lent, cher et saccadé ?
Parce que le véritable goulot d'étranglement de l'inférence n'est pas le “nombre de paramètres”, mais la bande passante.
Plus le modèle est grand, plus le contexte est riche, plus la chaîne d'outils est longue, et plus ce qui ralentit tout, c'est l'I/O : chargement des poids, transfert du cache KV, transport des résultats intermédiaires. Même avec assez de puissance de calcul, si la bande passante manque, l'inférence sera toujours lente.
Sur ce
Voir l'original