✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
🚨 ANTHROPIC 使用 CLAUDE OPUS 4.7 设定了新的基准
本次发布更侧重于可靠性和执行,而非纯粹的原始性能。
它引入了能够运行数小时而不偏离的代理,同时减少幻觉并改进校准。安全性也进一步增强,包括对提示注入和越狱尝试的更强抵抗能力。
该模型保留 1 million token 的上下文窗口,但现在在处理大规模输入时展现出更有效的检索与推理能力。
一个关键新增是“Routines”。
这些是由 API、日程安排或事件触发的持久化工作流程,使任务能够在后台自主运行。
这里是这种转变:
AI 正在从助手转向基础设施。
在 SWE-bench 上为 64.3%,高于 53.4%
在经过验证的代理式代码编写上为 87.6%
在扩展工具使用上为 77.3%
在真实世界计算机任务上为 78.0%
它也改善了模型通常会出现退化的地方:
在代理式搜索上为 79.3%
在金融分析上为 64.4%
在多语言问答上为 91.5%
而且,关键在于长上下文推理仍然稳得住:
借助工具的视觉推理超过 90%
在研究生水平的基准测试中为 94.2%
这里是要点:
这并不是为了追求峰值分数。
而是为了在各个领域保持一致性。
Opus 4.7 并不在每个类别中都称霸。
但它能在所有类别中都表现可靠。
这正是生产系统所需要的。
前沿不再只是智能。
而是在真实工作负载下的稳定性。