2026-02-19 07:19:26

我們最近看到一宗價值1.78百萬美元的漏洞事件，原因是一個由Claude Opus 4.6撰寫的漏洞。

cbETH的價格為$1 ，而非$2,000。
不久前，@OpenAI推出了EVMbench。簡單來說，它是一個評估AI代理與智能合約互動能力的基準測試。

它有三個主要評估模式：
> 檢測：分析代理檢測漏洞的能力
> 修補：分析代理修復漏洞的能力
> 利用：分析代理利用漏洞的能力
他們的分析顯示，近期的模型(Opus 4.6、GPT-5.3-Codex等)在利用漏洞方面表現非常出色，但在檢測和修補方面較為薄弱。
這正是我在用最新模型運行自己的代理時所觀察到的。在我的代理團隊中，我總是包含一個審核代理，能獲取完整上下文，主要目標是找出漏洞。
當它找到漏洞時，開發代理就能輕鬆修復。
但問題是，在10個漏洞中，它可能只找到3個。目前，我們還不能完全依賴代理來正確檢測漏洞。
推出這個基準測試是一個非常強力的舉措。我很期待用我的代理來測試它。
為了澄清，這不是一個安全掃描器或一個可用於生產的審計工具。它主要是用來衡量AI的能力、比較模型，並提供AI在這個領域的進展指標。
基本上，這是一個讓AI在這個領域被評估和改進的工具，說實話，我們真的很需要這個。

查看原文