Inception Labs lance Mercury 2, un modèle de raisonnement basé sur la diffusion atteignant plus de 1 000 tokens par seconde

2026-02-26 09:42:03

En résumé

Inception Labs a lancé Mercury 2, un modèle de raisonnement basé sur la diffusion capable de générer plus de 1 000 tokens par seconde, soit trois fois plus rapide que des modèles comparables.

Inception Labs, une startup spécialisée en IA, a lancé Mercury 2, un grand modèle de langage (LLM) basé sur la diffusion, conçu pour accélérer considérablement les tâches de raisonnement dans les applications d’IA en production.

Contrairement aux modèles autoregressifs traditionnels qui génèrent du texte de manière séquentielle, Mercury 2 utilise un processus de raffinement parallèle, produisant plusieurs tokens simultanément et convergeant en un petit nombre d’étapes, permettant des vitesses de plus de 1 000 tokens par seconde sur des GPU NVIDIA Blackwell — environ trois fois plus rapide que les modèles concurrents dans la même gamme de prix.

Le modèle est optimisé pour une réactivité en temps réel dans des flux de travail d’IA complexes, où la latence s’accumule à travers plusieurs appels d’inférence, pipelines de récupération et boucles agentiques. Mercury 2 maintient une haute qualité de raisonnement tout en réduisant la latence, permettant aux développeurs, systèmes d’IA vocale, moteurs de recherche et autres applications interactives de fonctionner avec des performances de niveau raisonnement sans les délais liés à la génération séquentielle. Il prend en charge des fonctionnalités telles que le raisonnement réglable, des fenêtres de contexte de 128K tokens, une sortie JSON alignée sur le schéma, et une intégration native d’outils, offrant une flexibilité pour une gamme de déploiements en production.

Mercury 2 permet une IA à faible latence dans les flux de travail de codage, de voix et de recherche

Le rapport met en avant plusieurs cas d’utilisation où une faible latence de raisonnement est cruciale. Dans les flux de travail de codage et d’édition, Mercury 2 offre une autocomplétion rapide et des suggestions de prochaine modification qui s’intègrent parfaitement au processus de réflexion des développeurs. Dans les flux de travail agentiques, le modèle permet plus d’étapes d’inférence sans dépasser les budgets de latence, améliorant la qualité et la profondeur de la prise de décision automatisée. Les applications vocales et interactives bénéficient de sa capacité à générer des réponses de qualité raisonnée dans le rythme naturel de la parole, améliorant l’expérience utilisateur en temps réel. De plus, Mercury 2 supporte les pipelines de recherche et de récupération multi-sauts, permettant un résumé rapide, un reranking et un raisonnement sans compromettre les temps de réponse.

Les premiers utilisateurs ont constaté des améliorations significatives en termes de débit et d’expérience utilisateur. Mercury 2 a été décrit comme étant au moins deux fois plus rapide que GPT-5.2 tout en maintenant une qualité compétitive, avec des applications allant de la correction en temps réel de transcriptions, aux interfaces homme-machine interactives, à l’optimisation autonome de la publicité, et aux avatars IA vocaux.

Le modèle est compatible avec l’API OpenAI, permettant une intégration dans les stacks existants sans modifications majeures, et Inception Labs propose un support pour les évaluations en entreprise, la validation des performances et des conseils pour le déploiement spécifique aux charges de travail. Mercury 2 représente une avancée dans les LLM basés sur la diffusion, redéfinissant l’équilibre entre la qualité du raisonnement et la latence dans les environnements d’IA en production.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.