XM交易：英伟达发布ENPIRE，让AI代理自主训练机器人

币界网报道：

英伟达与卡内基梅隆大学、加州大学伯克利分校联合发布机器人训练框架 ENPIRE。该系统把训练流程交给 AI 编码代理执行，让机器人在真实硬件上反复试错、改写代码并学习新技能，人工只参与最初的基础设置。

两项基础工具先由人工搭建

ENPIRE 将流程分成两个阶段。第一阶段由研究人员引导代理建立两项长期可复用的工具：一是重置流程，用于把工作台恢复到统一初始状态；二是奖励函数，通过摄像头画面判断任务是否完成。

这两项工具完成后，后续训练基本交由代理独立推进。系统会自行查找公开研究，选择模仿学习、强化学习或手写规则等方法，再修改代码并直接在机器人上测试结果。

8 台机器人并行训练缩短耗时

英伟达在 GEAR 实验室部署了 8 个双臂机器人工作站。每个工作站都配有独立硬件、计算资源和编码代理。各站点通过 Git 共享进展，一旦某个方案有效，其他机器人可快速同步。

研究团队测试了 Push-T 和插针等任务。结果显示，机器人数量从 1 台扩展到 8 台后，Push-T 任务训练时间从约 5 小时降至 2 小时，插针任务从 90 多分钟降至约 40 分钟。

真实环境仍比模拟器更难

论文提到，3 种编码代理都能在模拟环境中完成 Push-T，但转到真实机器人后，其中 2 种未能顺利复现结果。这说明模拟器与现实环境之间仍有明显差距，摩擦、摆放误差等因素都会影响训练效果。

研究人员还在 RoboCasa 模拟厨房基准中测试了 ENPIRE。结果显示，该框架表现优于英伟达自家的端到端模型 GR00T，以及不包含自动研究闭环的 CaP-X。

ENPIRE 也被视为英伟达 2023 年 Eureka 项目的延伸。后者主要让大模型在模拟器中编写奖励函数，而 ENPIRE 进一步把自我改进流程带到真实机器人硬件上。

这项发布也正值具身智能竞争升温之际。就在同一周，阿里巴巴推出 Qwen-Robot Suite，布局机器人导航、操作和物理仿真模型。两家公司的路径不同，但都指向同一趋势：AI 编码代理正从软件开发走向真实机器人训练。