Gate 廣場“新星計劃”正式上線!
開啟加密創作之旅,瓜分月度 $10,000 獎勵!
參與資格:從未在 Gate 廣場發帖,或連續 7 天未發帖的創作者
立即報名:https://www.gate.com/questionnaire/7396
您將獲得:
💰 1,000 USDT 月度創作獎池 + 首帖 $50 倉位體驗券
🔥 半月度「爆款王」:Gate 50U 精美周邊
⭐ 月度前 10「新星英雄榜」+ 粉絲達標榜單 + 精選帖曝光扶持
加入 Gate 廣場,贏獎勵 ,拿流量,建立個人影響力!
詳情:https://www.gate.com/announcements/article/49672
Inception Labs 推出 Mercury 2,這是一款基於擴散的推理模型,能夠實現每秒超過 1,000 個代幣
簡要介紹
Inception Labs 已推出 Mercury 2,一款基於擴散的推理模型,能夠每秒生成超過 1,000 個標記,速度是同類模型的三倍。
Inception Labs,一家人工智能初創公司,推出了 Mercury 2,一款基於擴散的大型語言模型(LLM),旨在顯著加快生產型人工智能應用中的推理任務。
與傳統的自回歸模型逐步生成文本不同,Mercury 2 採用並行優化流程,同時產生多個標記,並在少量步驟內收斂,使其在 NVIDIA Blackwell GPU 上的速度超過每秒 1,000 個標記——大約是同價位競爭模型的三倍。
該模型針對複雜人工智能工作流程中的實時響應進行優化,這些流程中延遲會在多次推理調用、檢索管道和代理循環中累積。Mercury 2 在降低延遲的同時保持高推理質量,使開發者、語音人工智能系統、搜索引擎及其他互動應用能在不受序列生成延遲影響的情況下,達到推理級別的性能。它支持可調整推理、128K 標記上下文窗口、與架構對齊的 JSON 輸出以及原生工具集成,為多種生產部署提供彈性。
Mercury 2 實現低延遲 AI,應用於編碼、語音與搜索工作流程
報告強調了多個對低延遲推理至關重要的應用場景。在編碼與編輯工作流程中,Mercury 2 提供快速的自動完成和下一步編輯建議,無縫融入開發者的思考過程。在代理工作流程中,模型允許進行更多推理步驟而不超出延遲預算,提升自動決策的質量與深度。語音人工智能與互動應用則能在自然語音節奏中產生推理質量的回應,提升實時對話體驗。此外,Mercury 2 支持多跳搜索與檢索管道,實現快速摘要、重新排序與推理,且不影響反應時間。
早期用戶反映其吞吐量與用戶體驗有顯著提升。Mercury 2 被描述為速度至少是 GPT-5.2 的兩倍,同時保持競爭力的質量,應用範圍涵蓋實時轉錄清理、互動人機界面、自主廣告優化與語音AI虛擬形象等。
該模型兼容 OpenAI API,可無需大量修改即可集成到現有技術堆疊中,Inception Labs 亦提供企業評估、性能驗證與工作負載專用部署指導。Mercury 2 代表了基於擴散的 LLM 的一大進步,重新定義了在生產型 AI 環境中推理質量與延遲之間的平衡。