文章详情

XM交易:英伟达发布ENPIRE,让AI代理自主训练机器人

币界网报道:

英伟达与卡内基梅隆大学、加州大学伯克利分校联合发布机器人训练框架 ENPIRE。该系统把训练流程交给 AI 编码代理执行,让机器人在真实硬件上反复试错、改写代码并学习新技能,人工只参与最初的基础设置。

两项基础工具先由人工搭建

ENPIRE 将流程分成两个阶段。第一阶段由研究人员引导代理建立两项长期可复用的工具:一是重置流程,用于把工作台恢复到统一初始状态;二是奖励函数,通过摄像头画面判断任务是否完成。

这两项工具完成后,后续训练基本交由代理独立推进。系统会自行查找公开研究,选择模仿学习、强化学习或手写规则等方法,再修改代码并直接在机器人上测试结果。

8 台机器人并行训练缩短耗时

英伟达在 GEAR 实验室部署了 8 个双臂机器人工作站。每个工作站都配有独立硬件、计算资源和编码代理。各站点通过 Git 共享进展,一旦某个方案有效,其他机器人可快速同步。

研究团队测试了 Push-T 和插针等任务。结果显示,机器人数量从 1 台扩展到 8 台后,Push-T 任务训练时间从约 5 小时降至 2 小时,插针任务从 90 多分钟降至约 40 分钟。

  • Push-T:训练时间约从 5 小时降至 2 小时
  • 插针任务:训练时间从 90 多分钟降至约 40 分钟
  • 4 项真实任务中,成功率达到 99%

真实环境仍比模拟器更难

论文提到,3 种编码代理都能在模拟环境中完成 Push-T,但转到真实机器人后,其中 2 种未能顺利复现结果。这说明模拟器与现实环境之间仍有明显差距,摩擦、摆放误差等因素都会影响训练效果。

研究人员还在 RoboCasa 模拟厨房基准中测试了 ENPIRE。结果显示,该框架表现优于英伟达自家的端到端模型 GR00T,以及不包含自动研究闭环的 CaP-X。

ENPIRE 也被视为英伟达 2023 年 Eureka 项目的延伸。后者主要让大模型在模拟器中编写奖励函数,而 ENPIRE 进一步把自我改进流程带到真实机器人硬件上。

这项发布也正值具身智能竞争升温之际。就在同一周,阿里巴巴推出 Qwen-Robot Suite,布局机器人导航、操作和物理仿真模型。两家公司的路径不同,但都指向同一趋势:AI 编码代理正从软件开发走向真实机器人训练。