导航菜单
首页
排名 涨幅榜 跌幅榜 24h成交额 新币榜
快讯 机构 观点 人物 专题

阿里巴巴正在打造Qwen-Robot:机器人经济操作系统

阿里巴巴的 Qwen 团队于周二发布了 Qwen-Robot Suite:三个基础模型,形成了他们所谓的“体现智能的全栈”。 Qwen-RobotNav 处理移动性。 Qwen-RobotManip 处理操作。 Qwen-RobotWorld 模拟了使这两者成为可能的物理原理。每个人独立工作。它们共同构成了机器人技术的 Android 时刻——操作系统,而不是硬件。

阿里巴巴是目前中国唯一一家横跨芯片、云、模型、服务平台和应用的公司。对于该公司来说,机器人技术是该赌注最实际的体现,即所谓的“体现人工智能”。

人工智能代理目前依靠法学硕士来支持他们的决策。机器人通常的工作方式是通过机器学习模型,虽然很先进,但缺乏生成式人工智能的适应性。物理代理面临着一种不同的、更难的故障模式:物理,而不是提示。

针对这些用例,阿里巴巴推出了具有不同组件的新人工智能套件:

Qwen-RobotNav 统一了五种导航任务 - 指令跟踪、点目标导航、物体搜索、目标跟踪和自动驾驶 - 每个任务都需要不同的视觉记忆策略。大多数模型都硬编码一种策略。 Qwen-RobotNav 公开了一个参数化接口:代币预算、时间衰减、每个摄像机的权重,规划人员可以在中段重新配置这些权重。

经过对所有参数进行随机化的 1560 万个样本进行训练,它在 VLN-CE RxR(现实环境中视觉和语言导航的基准)上取得了 76.5% 的成功率,在 EVT-Bench(评估智能体持续跟踪移动目标的能力)上取得了 90% 的跟踪成功率。

Alibaba Is Building Qwen-Robot: The Operating System for the Robot Economy

Qwen-RobotManip 解决了机器人操作中最大的挑战之一:不同的机器人以根本不同的方式表示动作。 Franka 手臂(一种具有七个运动轴的机器人)通过关节角度进行操作,而 ALOHA 机器人(一种广泛用于机器人研究的低成本双手机器人平台)通过其夹具的位置和方向(末端执行器姿势)来表示动作。类人生物使用全身坐标,增加了另一层复杂性。

为了弥合这些不兼容的动作空间,阿里巴巴从开源机器人数据集和人类视频中合成了大约 38,100 小时的训练数据,而不依赖于专有的数据收集。该模型在 RoboChallenge Table30-v1 上排名第一,比之前的方法高出 20%。

Alibaba Is Building Qwen-Robot: The Operating System for the Robot Economy

Qwen-RobotWorld 是最雄心勃勃的:一个以语言为条件的视频世界模型,将自然语言视为通用动作界面。无论演员是抓手、自动驾驶汽车还是移动导航代理,“拿起红杯,浇花”都适用。

具体世界知识语料库涵盖 860 万个视频文本对(2 亿帧),涉及操作(590 万个样本、1,300 多种技能、20 多种形态)、自动驾驶(Waymo、NVIDIA PhysicalAI-AD、Bench2Drive)、室内导航 (VLNVerse) 以及跨 14 个机器人手臂的人机传输。

它在 EWMBench 和 DreamGen Bench 上排名第一,这两个基准评估世界模型是否预测并生成真实的物理环境。它还击败了 WorldModelBench 和 PBench 上的所有开源模型,并且在物理学遵守性方面得分完美:牛顿定律、质量守恒定律、流体动力学、重力。

Alibaba Is Building Qwen-Robot: The Operating System for the Robot Economy

机器人的ChatGPT?

虽然西方实验室(Google DeepMind、Nvidia、Figure、Physical Intelligence)追求类似的目标,但大多数都专注于导航或操作,而不是统一的、可组合的套件。阿里巴巴从芯片到应用程序的垂直整合意味着他们控制了整个堆栈。开源基金会凭借私有机器人数据与竞争对手区分开来。

有一些误解可能值得澄清:这些不是机器人,而是软件模型——大脑,而不是身体。它们在 AgileX、Franka、Universal Robots、Unitree 等公司的硬件上运行。

此外,尽管这些是机器人的生成人工智能模型,但它们并不是像典型的 ChatGPT 那样的法学硕士。语言模型预测标记。这些模型必须理解物理学、空间关系和物理行为的后果。语言模型告诉您玻璃如果掉落就会破裂。 Qwen-RobotWorld 预测它如何破裂——破碎模式、流体动力学、二次碰撞。 Qwen-RobotManip 计划了一种完全防止掉落的抓握。

不要指望很快就能拥有自己的女佣机器人。将水果放入篮子的机器人的受控演示与在家中可靠工作的机器人之间的差距是巨大的。 RoboCasa365、LIBERO-Plus、RoboTwin-Clean2Rand——这些是模拟基准。现实世界的部署引入了传感器噪声、执行器漂移和边缘情况的长尾,这些都让历史上每一个机器人技术的努力都黯然失色,阿里巴巴认识到了这一点。

不过,技术成就是真实的。 RobotManip 的对齐优先方法解决了跨实体训练中的真正瓶颈。 RobotNav 的参数化观察界面是上下文策略问题的巧妙解决方案。 RobotWorld 的语言作为通用动作接口是跨领域世界建模的正确抽象。

阿里巴巴尚未透露定价、时间表或哪些客户可以在试点计划之外获得访问权。