Gate 廣場“新星計劃”正式上線!
開啟加密創作之旅,瓜分月度 $10,000 獎勵!
參與資格:從未在 Gate 廣場發帖,或連續 7 天未發帖的創作者
立即報名:https://www.gate.com/questionnaire/7396
您將獲得:
💰 1,000 USDT 月度創作獎池 + 首帖 $50 倉位體驗券
🔥 半月度「爆款王」:Gate 50U 精美周邊
⭐ 月度前 10「新星英雄榜」+ 粉絲達標榜單 + 精選帖曝光扶持
加入 Gate 廣場,贏獎勵 ,拿流量,建立個人影響力!
詳情:https://www.gate.com/announcements/article/49672
我們最近看到一宗價值1.78百萬美元的漏洞事件,原因是一個由Claude Opus 4.6撰寫的漏洞。
cbETH的價格為$1 ,而非$2,000。
不久前,@OpenAI推出了EVMbench。簡單來說,它是一個評估AI代理與智能合約互動能力的基準測試。
它有三個主要評估模式:
> 檢測:分析代理檢測漏洞的能力
> 修補:分析代理修復漏洞的能力
> 利用:分析代理利用漏洞的能力
他們的分析顯示,近期的模型(Opus 4.6、GPT-5.3-Codex等)在利用漏洞方面表現非常出色,但在檢測和修補方面較為薄弱。
這正是我在用最新模型運行自己的代理時所觀察到的。在我的代理團隊中,我總是包含一個審核代理,能獲取完整上下文,主要目標是找出漏洞。
當它找到漏洞時,開發代理就能輕鬆修復。
但問題是,在10個漏洞中,它可能只找到3個。目前,我們還不能完全依賴代理來正確檢測漏洞。
推出這個基準測試是一個非常強力的舉措。我很期待用我的代理來測試它。
為了澄清,這不是一個安全掃描器或一個可用於生產的審計工具。它主要是用來衡量AI的能力、比較模型,並提供AI在這個領域的進展指標。
基本上,這是一個讓AI在這個領域被評估和改進的工具,說實話,我們真的很需要這個。