🥷 #OpenAI and Paradigm launched EVMbench, a benchmark designed to measure how well #KI-Agenten können Schwachstellen in EVM-Ökosystemen wie Ethereum erkennen, beheben und ausnutzen. Der Benchmark basiert auf 120 hochgradigen Schwachstellen, die aus 40 Audits kuratiert wurden, und umfasst Szenarien im Zusammenhang mit der Tempo-Chain. Tests zeigen, dass GPT-5.3-Codex im "Exploit"-Modus 72,2 % erreichte, verglichen mit GPT-5 bei 31,9 %, während die Abdeckung für Schwachstellen-Erkennung und -Behebung noch unvollständig ist. #hack
Diese Seite kann Inhalte Dritter enthalten, die ausschließlich zu Informationszwecken bereitgestellt werden (keine Zusicherungen oder Garantien), und sie sind nicht als Billigung der darin geäußerten Ansichten durch Gate oder als finanzielle bzw. fachliche Beratung zu verstehen. Weitere Informationen finden Sie im Haftungsausschluss.
🥷 #OpenAI and Paradigm launched EVMbench, a benchmark designed to measure how well #KI-Agenten können Schwachstellen in EVM-Ökosystemen wie Ethereum erkennen, beheben und ausnutzen. Der Benchmark basiert auf 120 hochgradigen Schwachstellen, die aus 40 Audits kuratiert wurden, und umfasst Szenarien im Zusammenhang mit der Tempo-Chain. Tests zeigen, dass GPT-5.3-Codex im "Exploit"-Modus 72,2 % erreichte, verglichen mit GPT-5 bei 31,9 %, während die Abdeckung für Schwachstellen-Erkennung und -Behebung noch unvollständig ist. #hack
#crypto