✍️ Gate 广场「创作者认证激励计划」优质创作者持续招募中!
Gate 广场现正面向优质创作者开放认证申请!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
📕 认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
注:请确保 App 版本更新至 7.25.0 或以上。
👉 立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
📅 活动自 11 月 1 日起持续进行
在 Gate 广场让优质内容变现,创作赚取奖励!
活动详情:https://www.gate.com/announcements/article/47889
谷歌DeepMind推出SIMA 2:能够在3D虚拟世界中进行游戏、推理和学习的AI智能体
简要
谷歌DeepMind推出了SIMA 2 AI代理,能够理解指令、推理,并在虚拟环境中自学新技能,接近人类水平的任务完成能力。

科技公司谷歌的人工智能部门Google DeepMind推出了SIMA 2,这是其可扩展可指令多世界代理的最新版本,标志着朝着更强大和通用的人工智能代理迈出了一步。
基于双子座模型的先进推理能力,该系统超越了虚拟环境中的基本指令执行,现在作为一个互动伴侣,能够解读目标、与用户对话,并随着时间的推移不断优化其表现。
第一个SIMA模型通过观察屏幕输入并使用虚拟控制操作,而不是集成的游戏机制,学习了数百种基于语言的动作,跨越商业视频游戏。
SIMA 2 通过将 Gemini 嵌入其核心,进一步推动了这一方法,使得代理能够进行目标导向的推理,解释其预期的行动,并在游戏中执行更复杂的任务。该代理在由人类示范和 Gemini 生成的注释的组合上进行了训练,并通过与多个开发者的合作,在更广泛的游戏集合中进行了测试。这次更新代表了具身 AI 的一个重要进步,结合了感知、推理和在动态 3D 环境中的行动。
Gemini的整合增强了SIMA 2在陌生环境中概括和可靠操作的能力。该代理现在可以解释更详细和微妙的指令,并成功执行它们,即使是在之前未曾遇到的游戏中,如维京主题的游戏ASKA或Minecraft的研究版本MineDojo。
它在不同环境中应用所学概念的能力——例如,将“挖矿”的概念从一个游戏扩展到另一个游戏中的“收获”——是广泛泛化的一个关键组成部分,使其表现更接近人类玩家。
为了评估这些能力,SIMA 2 还在由 Genie 3 创建的程序生成的 3D 世界中进行了测试,该系统可以根据文本或图像提示生成新的环境。在这些陌生的环境中,智能体仍然能够有效地导航、理解指令,并朝着用户定义的目标努力,展现出在类似系统中未曾观察到的适应能力。
SIMA 2 通过新能力在泛化和自主学习方面推进自我改进的人工智能
根据公司介绍,SIMA 2 最显著的发展之一是其提升自身性能的新能力。在训练过程中,智能体展示了它可以通过反复试验和来自 Gemini 的反馈来承担越来越复杂的任务。在最初通过人类示范学习后,SIMA 2 能够通过自主游戏在新游戏中继续进步,在不需要额外人类数据的情况下,在不熟悉的环境中获得技能。这个经验可以用来训练后续更强大的 AI 智能体版本,并且相同的自我提升过程已经在 Genie 生成的环境中成功应用,标志着朝着在多样化合成世界中训练通用智能体的有意义进展。这种持续改进的循环支持了使智能体在最小人类指导下学习的长期目标。
SIMA 2 在多种游戏环境中的操作为通用智能提供了重要的测试平台,使其能够获得技能、练习推理并通过自我导向的行动持续学习。尽管该系统代表了朝向通用、互动、具身智能的重大进展,但仍然存在明显的研究阶段限制。该代理在需要扩展推理或重复目标验证的复杂长远任务中仍然挣扎,由于需要在有限的上下文窗口内进行低延迟交互,其记忆仍然较短。对细粒度动作的精确性和对复杂 3D 场景的视觉理解在该领域仍然是一个更广泛的挑战。
该项目展示了一种以行动为导向的人工智能方法的潜力,其中广泛的能力得到多样化训练数据和强大的推理能力的支持。SIMA 2 表明,这些元素可以在一个通用代理中统一,而不是孤立在单独的专业系统中,它为未来机器人应用提供了一条有希望的路径,因为许多在虚拟环境中学到的技能——例如导航、工具使用和协作任务处理——转化为具身人工智能的基本组成部分。
SIMA 2 被设计为一个互动的以人为本的研究代理,其开发明确关注负责任的实践,特别是在其自我改进机制方面。团队在整个项目中与负责任的创新专家进行了合作,并以有限的研究预览发布 SIMA 2,为选定的学者和游戏开发者提供早期访问。这种分阶段的方法允许在进一步探索技术及其潜在影响时,持续进行审查、反馈和跨学科评估。