Inception LabsはMercury 2を発表、拡散型推論モデルで1秒あたり1,000トークン超えを実現

2026-02-26 09:42:03

概要

Inception Labsは、1秒あたり1,000トークン以上を生成できる拡散型推論モデル「Mercury 2」を発表しました。これは、同等のモデルよりも3倍の速度です。

AIスタートアップのInception Labsは、Mercury 2をリリースしました。これは、実用的なAIアプリケーションにおける推論作業を大幅に高速化するために設計された拡散型大規模言語モデル（LLM）です。

従来の自己回帰モデルが逐次的にテキストを生成するのに対し、Mercury 2は並列の洗練プロセスを採用し、複数のトークンを同時に生成しながら少数のステップで収束します。これにより、NVIDIA Blackwell GPU上で1秒あたり1,000トークン以上の速度を実現し、同じ価格帯の競合モデルの約3倍の速度を達成しています。

このモデルは、複雑なAIワークフローにおいてリアルタイムの応答性を最適化しており、遅延が複数の推論呼び出し、検索パイプライン、エージェントループ全体にわたって蓄積される状況に対応しています。Mercury 2は高い推論品質を維持しつつ遅延を削減し、開発者や音声AIシステム、検索エンジン、その他のインタラクティブアプリケーションが遅延のない推論性能を実現できるようにします。調整可能な推論、128Kトークンのコンテキストウィンドウ、スキーマに沿ったJSON出力、ネイティブツール統合などの機能もサポートし、多様な本番展開に柔軟に対応します。

Mercury 2はコーディング、音声、検索ワークフローにおいて低遅延AIを実現

このレポートでは、低遅延推論が重要な複数のユースケースを紹介しています。コーディングや編集のワークフローでは、Mercury 2は迅速なオートコンプリートや次の編集提案を提供し、開発者の思考プロセスに自然に溶け込みます。エージェント型のワークフローでは、遅延予算を超えずにより多くの推論ステップを行えるため、自動意思決定の質と深さが向上します。音声AIやインタラクティブなアプリケーションは、自然な会話のリズム内で推論品質の応答を生成できるため、ユーザー体験が向上します。さらに、Mercury 2はマルチホップ検索や検索パイプラインもサポートし、迅速な要約や再ランキング、推論を遅延なく実行します。

早期導入者からは、スループットとユーザー体験の大幅な改善が報告されています。Mercury 2は、GPT-5.2の少なくとも2倍の速度でありながら、競争力のある品質を維持していると評価されており、リアルタイムの文字起こし、インタラクティブな人間とコンピュータのインターフェース、自律的な広告最適化、音声対応AIアバターなどに活用されています。

このモデルはOpenAI APIと互換性があり、既存のシステムに大きな変更なく統合可能です。Inception Labsは、エンタープライズ評価、性能検証、ワークロード特化の展開支援も提供しています。Mercury 2は、拡散型LLMの進歩を示し、実用的なAI環境における推論品質と遅延のバランスを再定義しています。