12月的人工智能模型排名剛剛降低了一些有趣的變化。

有一個新版本——我們稱之爲“代理速度惡魔”——它專注於三件事：高效調用工具、處理混亂的多步驟工作流程，以及快速完成所有這些。真的很快。

它在排行榜上的位置是：

τ²-Bench Telecom? 排名第一。這個基準測試向模型拋出極其復雜的代理任務，這種任務讓大多數系統都難以應對。但這個系統不在其中。

伯克利函數調用基準？也位於第一位。翻譯：當你要求它使用外部工具或API時，它實際上能夠準確地完成工作，而不是胡言亂語。

這值得注意的不僅僅是排名——許多模型在挑選的測試中聲稱佔據了頂尖位置。關鍵在於組合：速度 + 工具準確性 + 工作流程復雜性。如果你在構建任何超出聊天機器人的東西，這三者的結合就顯得尤爲重要。

該模型架構顯然優先考慮實際執行而非一般知識的廣度。權衡，始終是權衡。但對於代理應用呢？這種定位有不同的影響。