Inception Labs startet Mercury 2, ein auf Diffusions basierendes Reasoning-Modell, das über 1.000 Tokens pro Sekunde erreicht

2026-02-26 09:42:03

Kurzfassung

Inception Labs hat Mercury 2 vorgestellt, ein diffusionbasiertes Reasoning-Modell, das über 1.000 Tokens pro Sekunde generieren kann – dreimal schneller als vergleichbare Modelle.

Inception Labs, ein KI-Startup, hat Mercury 2 veröffentlicht, ein diffusionbasiertes Large Language Model (LLM), das die Reasoning-Aufgaben in Produktions-KI-Anwendungen erheblich beschleunigen soll.

Im Gegensatz zu traditionellen autoregressiven Modellen, die Text sequenziell generieren, verwendet Mercury 2 einen parallelen Verfeinerungsprozess, bei dem mehrere Tokens gleichzeitig erzeugt und in wenigen Schritten konvergiert werden. Dadurch erreicht es Geschwindigkeiten von über 1.000 Tokens pro Sekunde auf NVIDIA Blackwell-GPUs – etwa dreimal schneller als konkurrierende Modelle im gleichen Preissegment.

Das Modell ist für Echtzeitreaktionen in komplexen KI-Workflows optimiert, bei denen Latenz über mehrere Inferenzaufrufe, Retrieval-Pipelines und agentische Schleifen hinweg kumuliert. Mercury 2 bewahrt eine hohe Reasoning-Qualität bei reduzierter Latenz, sodass Entwickler, Sprach-KI-Systeme, Suchmaschinen und andere interaktive Anwendungen auf reasoning-Qualität arbeiten können, ohne die Verzögerungen der sequenziellen Generierung. Es unterstützt Funktionen wie anpassbares Reasoning, 128K-Token-Kontextfenster, schema-konforme JSON-Ausgabe und native Tool-Integration, was Flexibilität für verschiedene Produktionsanwendungen bietet.

Mercury 2 ermöglicht Low-Latency-KI in Coding-, Sprach- und Such-Workflows

Der Bericht hebt mehrere Anwendungsfälle hervor, bei denen niedrige Latenz beim Reasoning entscheidend ist. In Coding- und Bearbeitungs-Workflows liefert Mercury 2 schnelle Autovervollständigungen und Vorschläge für die nächste Bearbeitung, die nahtlos in die Denkprozesse der Entwickler integriert sind. In agentischen Workflows erlaubt das Modell mehr Inferenzschritte, ohne die Latenzbudgets zu überschreiten, was die Qualität und Tiefe automatisierter Entscheidungsfindung verbessert. Sprachbasierte KI und interaktive Anwendungen profitieren von seiner Fähigkeit, Reasoning-Qualität in natürlicher Sprachmelodie zu generieren, was die Nutzererfahrung in Echtzeitgesprächen verbessert. Zusätzlich unterstützt Mercury 2 Multi-Hop-Such- und Retrieval-Pipelines, die schnelle Zusammenfassungen, Neu-Rankings und Reasoning ermöglichen, ohne die Antwortzeiten zu beeinträchtigen.

Frühzeitige Anwender berichten von deutlichen Verbesserungen bei Durchsatz und Nutzererfahrung. Mercury 2 gilt als mindestens doppelt so schnell wie GPT-5.2 bei vergleichbarer Qualität und findet Anwendung bei Echtzeit-Transkriptbereinigung, interaktiven Mensch-Maschine-Schnittstellen, autonomer Werbeoptimierung und sprachgesteuerten KI-Avataren.

Das Modell ist kompatibel mit der OpenAI-API, was die Integration in bestehende Systeme ohne umfangreiche Anpassungen ermöglicht. Inception Labs bietet Unterstützung bei Unternehmensevaluationen, Leistungsvalidierungen und deploymentspezifischer Anleitung. Mercury 2 stellt einen Fortschritt bei diffusionbasierten LLMs dar und redefiniert das Gleichgewicht zwischen Reasoning-Qualität und Latenz in produktiven KI-Umgebungen.

Original anzeigen

Diese Seite kann Inhalte Dritter enthalten, die ausschließlich zu Informationszwecken bereitgestellt werden (keine Zusicherungen oder Garantien), und sie sind nicht als Billigung der darin geäußerten Ansichten durch Gate oder als finanzielle bzw. fachliche Beratung zu verstehen. Weitere Informationen finden Sie im Haftungsausschluss.