Nvidia 构建了使用 AI 编码代理进行自我训练的机器人

Nvidia GEAR 实验室的八个机器人手臂在过去几周里自学如何插入别针、安装显卡和剪扎带。唯一参与其中的人是后来写这篇论文的人。

该技能来自 ENPIRE，这是 Nvidia、卡内基梅隆大学和加州大学伯克利分校的研究人员周二发表的一篇论文中详细介绍的一个框架。 ENPIRE 将训练机器人的全部工作交给人工智能编码代理，该软件已经编写和测试了自己的代码，并让它们直接在物理硬件上运行该过程。

Nvidia Built Robots That Train Themselves Using AI Coding Agents

像 OpenAI 的 Codex、Anthropic 的 Claude Code 和 Moonshot 的 Kimi Code 这样的编码代理在过去的一年里一直在进行研究人员所谓的自动研究——编写代码、测试代码，然后在没有人参与的情况下再次重写代码。该循环大部分停留在屏幕上，重置失败的实验不需要任何费用。 ENPIRE 将其拖入物理世界，重置实验意味着移动实际的机器人手臂。

构建“Enpire”

系统将工作分为两个阶段。首先，人类引导智能体构建两个永久性工具：一个重置例程，将工作空间返回到一个新的起始位置；以及一个奖励功能，通过观看摄像机镜头来获得成功——基本上是一个从不眨眼、从不午休的裁判。该设置发生一次，然后在随后的每次尝试中重复使用。

一旦这些工具存在，代理就会完全接管。它在已发表的研究中搜索想法，在模仿学习、强化学习或手写规则等训练方法之间进行选择，然后重写自己的代码并在机器人上测试结果。该循环中没有任何内容需要人观看，这要么是解放，要么有点令人不安，具体取决于您对无人监督的拿着剪刀的机器人的感觉。

&amp;amp;amp;amp;amp;amp;amp;lt;span style="display: inline-block; width: 0px; 溢出: 行高: 0;" data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;amp;amp;amp;amp;gt;&amp;amp;amp;amp;amp;amp;amp;lt;/span&amp;amp;amp;amp;amp;amp;amp;gt;

Nvidia 在八个双手机器人站上进行了实验，每个机器人站都有自己的硬件、计算机和编码代理。这些站点通过 Git 交换进度，Git 是编码人员用来合并代码的同一工具，因此一个成功的想法会在几分钟内传播到整个车队。

研究人员测量了“Push-T”任务的回报，在这项任务中，机器人仅通过推动和销钉插入将 T 形块滑入目标区域，将销钉插入 4 毫米的孔中。将机器人从 1 个扩展到 8 个，掌握 Push-T 的时间从大约 5 小时减少到 2 小时，插针时间从 90 多分钟减少到大约 40 分钟。

Nvidia Built Robots That Train Themselves Using AI Coding Agents

根据该论文，在测试的四项现实世界任务中，代理将其策略的成功率提高到了 99%。对于引脚插入，代理比类似的人机循环方法更快地达到了近乎完美的可靠性，而这种方法仍然需要有人每天早上出现。

Nvidia 的吉姆·范 (Jim Fan) 是 GEAR 实验室的联合负责人，负责指导该公司的人工智能研究，他称该项目是首次在物理世界中实现自动研究的努力。 Fan 表示，该团队向特工提供了一组机器人、GPU 分配和代币预算，然后退一步让机器人接管。

Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fleet of robots, an allocation of GPUs, and generous token budget. We set them free with a simple goal: solve the task as quickly as possible, keep the robots busy… pic.twitter.com/zC0OQNzDBs

— Jim Fan (@DrJimFan) June 16, 2026

模拟与现实之间的差距几乎立即显现出来。该论文指出，所有三个编码代理都在模拟器中解决了 Push-T，但是一旦将相同的任务转移到物理机器人上，三个编码代理中的两个就失败了。

模拟器不存在摩擦问题。真实的桌子可以。

Nvidia 还在 RoboCasa 中测试了 ENPIRE，这是一个模拟厨房基准测试，可以根据成功率对机器人执行家务（例如打开橱柜或关闭炉灶）进行评分，幸运的是，没有任何烧毁地方的风险。在那里，ENPIRE 的表现优于 Nvidia 自己的端到端模型 GR00T 和 CaP-X（一种完全跳过自动研究循环的工具使用代理）。

ENPIRE 扩展了 Nvidia 首次提出的想法 Eureka，这是一个 2023 年的系统，它使用语言模型为模拟器内的机器人编写奖励函数，而不是让人类工程师手工完成。 ENPIRE 将自我改进循环从模拟器转移到真实硬件上，代理设计自己的测试而不仅仅是自己的奖励。

该版本发布的同一周，阿里巴巴推出了自己的嵌入式人工智能推送，即 Qwen-Robot Suite，这是用于机器人导航、操纵和物理模拟的三个基础模型。阿里巴巴正在为自己不生产的机器人身体构建软件大脑；英伟达正在测试代理是否可以在其拥有的硬件上端到端地运行整个研究循环。两者都指向相同的趋势：物理机器人正在成为编码代理竞争的下一个竞技场。