Notícias do Biqueworld, a Anthropic publicou um relatório afirmando que seus acadêmicos testaram os modelos Claude Opus 4.5, Claude Sonnet 4.5 e GPT-5 na benchmark SCONE-bench auto-construída (que inclui 405 contratos reais atacados entre 2020 e 2025). Após a atualização do conhecimento (março de 2025), foram encontrados cerca de 4,6 milhões de dólares em vulnerabilidades exploráveis nos contratos atacados. Além disso, em testes simulados de 2849 contratos recentemente implantados e sem vulnerabilidades conhecidas, Sonnet 4.5 e GPT-5 descobriram cada um 2 novas vulnerabilidades de dia zero, totalizando uma perda de 3694 dólares, dos quais os custos da API do GPT-5 foram de 3476 dólares.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Anthropic: AI agentes descobrem uma falha de 4,6 milhões de dólares em contratos reais
Notícias do Biqueworld, a Anthropic publicou um relatório afirmando que seus acadêmicos testaram os modelos Claude Opus 4.5, Claude Sonnet 4.5 e GPT-5 na benchmark SCONE-bench auto-construída (que inclui 405 contratos reais atacados entre 2020 e 2025). Após a atualização do conhecimento (março de 2025), foram encontrados cerca de 4,6 milhões de dólares em vulnerabilidades exploráveis nos contratos atacados. Além disso, em testes simulados de 2849 contratos recentemente implantados e sem vulnerabilidades conhecidas, Sonnet 4.5 e GPT-5 descobriram cada um 2 novas vulnerabilidades de dia zero, totalizando uma perda de 3694 dólares, dos quais os custos da API do GPT-5 foram de 3476 dólares.