Notícias do Biqueworld, a Anthropic publicou um relatório afirmando que seus acadêmicos testaram os modelos Claude Opus 4.5, Claude Sonnet 4.5 e GPT-5 na benchmark SCONE-bench auto-construída (que inclui 405 contratos reais atacados entre 2020 e 2025). Após a atualização do conhecimento (março de 2025), foram encontrados cerca de 4,6 milhões de dólares em vulnerabilidades exploráveis nos contratos atacados. Além disso, em testes simulados de 2849 contratos recentemente implantados e sem vulnerabilidades conhecidas, Sonnet 4.5 e GPT-5 descobriram cada um 2 novas vulnerabilidades de dia zero, totalizando uma perda de 3694 dólares, dos quais os custos da API do GPT-5 foram de 3476 dólares.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Anthropic: AI agentes descobrem uma falha de 4,6 milhões de dólares em contratos reais
Notícias do Biqueworld, a Anthropic publicou um relatório afirmando que seus acadêmicos testaram os modelos Claude Opus 4.5, Claude Sonnet 4.5 e GPT-5 na benchmark SCONE-bench auto-construída (que inclui 405 contratos reais atacados entre 2020 e 2025). Após a atualização do conhecimento (março de 2025), foram encontrados cerca de 4,6 milhões de dólares em vulnerabilidades exploráveis nos contratos atacados. Além disso, em testes simulados de 2849 contratos recentemente implantados e sem vulnerabilidades conhecidas, Sonnet 4.5 e GPT-5 descobriram cada um 2 novas vulnerabilidades de dia zero, totalizando uma perda de 3694 dólares, dos quais os custos da API do GPT-5 foram de 3476 dólares.