Inception Labs lanza Mercury 2, un modelo de razonamiento basado en difusión que alcanza más de 1,000 tokens por segundo

2026-02-26 09:42:03

En Resumen

Inception Labs ha lanzado Mercury 2, un modelo de razonamiento basado en difusión capaz de generar más de 1,000 tokens por segundo, tres veces más rápido que modelos comparables.

Inception Labs, una startup de IA, ha lanzado Mercury 2, un Modelo de Lenguaje Grande (LLM) basado en difusión diseñado para acelerar significativamente las tareas de razonamiento en aplicaciones de IA en producción.

A diferencia de los modelos autoregresivos tradicionales que generan texto de forma secuencial, Mercury 2 utiliza un proceso de refinamiento paralelo, produciendo múltiples tokens simultáneamente y convergiendo en un pequeño número de pasos, lo que permite velocidades superiores a 1,000 tokens por segundo en GPUs NVIDIA Blackwell—aproximadamente tres veces más rápido que modelos competidores en el mismo rango de precio.

El modelo está optimizado para una respuesta en tiempo real en flujos de trabajo complejos de IA, donde la latencia se acumula en múltiples llamadas de inferencia, pipelines de recuperación y bucles agenticos. Mercury 2 mantiene una alta calidad de razonamiento mientras reduce la latencia, permitiendo que desarrolladores, sistemas de IA de voz, motores de búsqueda y otras aplicaciones interactivas operen con un rendimiento de nivel de razonamiento sin los retrasos asociados con la generación secuencial. Soporta funciones como razonamiento ajustable, ventanas de contexto de 128K tokens, salida JSON alineada con esquemas y integración nativa de herramientas, ofreciendo flexibilidad para una variedad de implementaciones en producción.

Mercury 2 Permite IA de Baja Latencia en Flujos de Trabajo de Codificación, Voz y Búsqueda

El informe destaca varios casos de uso donde la baja latencia en el razonamiento es fundamental. En flujos de trabajo de codificación y edición, Mercury 2 ofrece autocompletado rápido y sugerencias de próximas ediciones que se integran perfectamente con los procesos de pensamiento de los desarrolladores. En flujos de trabajo agenticos, el modelo permite más pasos de inferencia sin superar los límites de latencia, mejorando la calidad y profundidad de la toma de decisiones automatizadas. Las aplicaciones basadas en voz y las interactivas se benefician de su capacidad para generar respuestas de calidad de razonamiento en el ritmo natural del habla, mejorando la experiencia del usuario en conversaciones en tiempo real. Además, Mercury 2 soporta pipelines de búsqueda y recuperación de múltiples saltos, permitiendo resúmenes rápidos, reclasificación y razonamiento sin comprometer los tiempos de respuesta.

Los primeros usuarios han notado mejoras significativas en el rendimiento y la experiencia del usuario. Mercury 2 ha sido descrito como al menos el doble de rápido que GPT-5.2, manteniendo una calidad competitiva, con aplicaciones que abarcan limpieza de transcripciones en tiempo real, interfaces interactivas humano-computadora, optimización autónoma de publicidad y avatares de IA habilitados por voz.

El modelo es compatible con la API de OpenAI, lo que permite su integración en pilas existentes sin modificaciones extensas, y Inception Labs ofrece soporte para evaluaciones empresariales, validación de rendimiento y orientación para despliegues específicos de carga de trabajo. Mercury 2 representa un avance en los LLM basados en difusión, redefiniendo el equilibrio entre calidad de razonamiento y latencia en entornos de IA en producción.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.