机器人操作的两条路线之争！全面对比，WAMs是否比VLAs的泛化能力更强？

张

张建站

2026/5/8 4:39:19

10分钟阅读

这篇发表于 2026 年 3 月的论文由华为与多伦多大学联合完成是机器人具身操作领域首次在统一基准、统一扰动、统一评估协议下对视觉‑语言‑动作模型VLA与世界动作模型WAM两大技术路线开展的全面对比。文章不预设立场、不偏向任何范式以实验数据回答行业最关心的问题世界模型带来的 “物理预测能力”是否真的让机器人在真实干扰环境中更稳、更通用并清晰揭示两类模型的能力边界、内在机理与工程落地代价。原文链接https://arxiv.org/abs/2603.22078本文也正式收录在具身智能之心开源知识库内更多具身最新技术、投融资、产品政策、上下游信息欢迎加入原文链接机器人操作的两条路线之争全面对比WAMs是否比VLAs的泛化能力更强研究缘起机器人操作的两条路线之争在真实场景中机器人执行抓取、装配、整理等任务面临光照变化、相机抖动、背景杂乱、物体位置偏移等大量不可控干扰。能否在扰动下稳定完成任务直接决定技术能否落地。当前主流解决方案分为两条路径视觉‑语言‑动作模型VLA以图文多模态大模型为基础将视觉观测、语言指令直接映射为机器人动作。它是目前最成熟、部署最广泛的方案优势是推理速度快、工程链完善但依赖大量机器人演示数据对未见过的环境扰动鲁棒性不足。世界动作模型WAM以视频生成式世界模型为基础先学习海量互联网视频中的时空演化规律能够 “预测未来状态”再基于预测生成动作。这类模型被认为具备更强的物理理解与泛化能力但推理开销大、实际鲁棒性缺乏系统性验证。在此背景下本文围绕四个核心问题展开研究WAM 在各类环境扰动下是否真的更鲁棒这种鲁棒优势是否在所有干扰类型中都成立两类模型性能差异的根本来源是什么落地时的推理速度与计算代价差距有多大核心差异VLA 与 WAM 的本质机理区别论文从架构、学习目标、决策方式三个层面清晰界定了两类模型的底层不同实验设计双基准七维扰动保证严谨与公平为避免单一环境带来的偏差研究采用两个互补的强化基准并统一施加7 大类共 21 项扰动高度贴近真实工业与家庭场景。实验平台LIBERO‑Plus单臂 7 自由度机器人40 项桌面操作任务侧重精细操作鲁棒性RoboTwin 2.0‑Plus双臂 14 自由度机器人50 项协作操作任务侧重双臂协调稳定性。七大类扰动维度机器人初始状态扰动关节位置、夹爪状态随机化相机视角扰动距离、角度、朝向变化语言指令扰动同义改写、增加干扰、目标式描述光照扰动颜色、强度、阴影、高光变化背景扰动材质、纹理、颜色替换传感器噪声扰动模糊、雾化、畸变物体布局扰动干扰物数量、目标位姿变化评估指标任务成功率衡量扰动下的操作鲁棒性单块动作推理时间衡量落地部署的实时性。核心结果四类关键发现WAM 在视觉类扰动中具备显著鲁棒优势在光照变化、图像噪声、背景杂乱、物体布局干扰等视觉外观类扰动下WAM 表现明显优于普通 VLA。在双臂任务 RoboTwin 2.0‑Plus 中LingBot‑VAWAM整体成功率 74.2%显著高于π 0.5 \pi_{0.5}π0.5VLA的 58.6%在单臂任务 LIBERO‑Plus 中Cosmos‑PolicyWAM达到 82.2%GE‑ActWAM达到 80.3%。其核心原因是WAM 从海量视频中学习到了时空动态先验能够在画面外观发生变化时依然抓住物体与场景的本质结构。WAM 存在明确短板几何配置类扰动鲁棒性不足当扰动来自相机视角大幅变化、机器人初始关节姿态改变时WAM 的鲁棒性明显下降甚至低于部分 VLA 模型。这是因为视频预训练只学习动态外观无法覆盖相机几何、机器人运动学结构等物理本体配置变化而这也是当前所有具身操作模型共同的技术挑战。顶级 VLA 可通过数据多样性达到超越 WAM 的鲁棒性π 0.5 \pi_{0.5}π0.5作为经典 VLA 模型未使用世界模型结构但依靠大规模多源数据训练机器人数据互联网图文与视频数据在 LIBERO‑Plus 上实现 85.7% 的成功率超过所有参评 WAM。这一结果直接说明显式世界建模并非鲁棒性的唯一来源数据规模、多样性与训练策略同样可以让 VLA 达到顶尖水平。混合架构的性能居中融合方式决定上限MOTUS、VLA‑JEPA 等在 VLA 基础上引入世界模型辅助任务的混合架构鲁棒性高于普通 VLA但低于纯 WAM。这表明简单拼接视频先验不足以发挥世界模型的全部能力如何将时空动态先验高效融入 VLA比 “是否融合” 更重要。工程落地关键WAM 推理速度存在数量级差距论文给出了可直接用于工程选型的速度对比以π 0.5 \pi_{0.5}π0.563ms / 动作块作为基准GE‑Act慢 4.8 倍Cosmos‑Policy慢 6.2 倍LingBot‑VA实机配置慢 7.6 倍MOTUS慢 18.6 倍LingBot‑VA仿真配置慢 83 倍WAM 的速度瓶颈来自未来状态去噪为了提升预测准确性需要多次迭代去噪鲁棒性越高延迟越大。这使得 WAM 在需要高频、实时控制的场景中目前难以直接部署。机理总结为什么两类模型表现不同论文将所有差异归结为三点底层逻辑预训练目标决定先验类型VLA 擅长静态语义WAM 擅长动态时序这是性能分化的根源。动作生成方式决定泛化路径VLA 靠数据覆盖泛化WAM 靠预测物理规律泛化。计算流程决定落地代价VLA 推理简单高效WAM 预测步骤多、成本高。研究结论与技术选型指南本文最终给出中立且明确的结论WAM 在视觉干扰多、数据稀缺的场景更具优势但对相机与本体几何变化敏感且推理速度慢VLA 在数据充足、需要实时控制的场景更实用顶级 VLA 的鲁棒性可超越 WAM混合架构是现阶段的折中方案但仍需优化先验融合方式未来方向提升 WAM 推理效率、增强模型对几何配置变化的鲁棒性、实现 VLA 与 WAM 的深度融合。基于以上结论可直接形成技术选型逻辑视觉干扰强、数据少、对实时性要求不高 → 选择 WAM要求高速控制、硬件资源有限、已有大量机器人数据 → 选择成熟 VLA希望平衡鲁棒性与速度 → 采用 VLA 世界模型辅助的混合架构重磅VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发推荐阅读我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等

lychee-rerank-mm入门指南：如何基于打分结果构建反馈闭环优化机制

lychee-rerank-mm入门指南：如何基于打分结果构建反馈闭环优化机制 1. 引言：从“找得到”到“排得准”的智能助手你有没有遇到过这样的烦恼？在搜索引擎里输入一个问题，系统确实返回了一大堆结果，但最相关的答案却藏在…...

2026/4/9 21:31:51 阅读更多 →

Qwen3-14B助力出海企业：本地化部署支持小语种翻译与文化适配生成

Qwen3-14B助力出海企业：本地化部署支持小语种翻译与文化适配生成 1. 为什么出海企业需要本地化AI解决方案对于正在拓展海外市场的中国企业来说，语言和文化差异是最大的障碍之一。传统翻译工具往往只能提供字面转换，无法理解文化背景和商业…...

2026/4/9 21:31:52 阅读更多 →

让旧款Mac焕发新生：OpenCore Legacy Patcher深度配置指南

让旧款Mac焕发新生：OpenCore Legacy Patcher深度配置指南【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否有一台闲置的旧款Intel Mac&#…...

2026/4/9 21:32:02 阅读更多 →

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程【免费下载链接】Autovisor 2025智慧树刷课脚本基于Python Playwright的自动化程序 [有免安装版] 项目地址: https://gitcode.com/gh_mirrors/au/Autovisor 你是否厌倦了每天手动点击播放、等待…...

2026/5/7 18:12:05 阅读更多 →

ModelScope Auto Proxy：智能路由网关，零成本统一调用免费大模型API

1. 项目概述与核心价值如果你和我一样，是个重度依赖 AI 编程工具（比如 Cursor、Cline）的开发者，那你肯定对 OpenAI 的 API 调用成本又爱又恨。爱的是它强大的能力，恨的是账单上的数字。最近，国内的开源社…...

2026/5/7 9:02:42 阅读更多 →

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程）

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程） 当你第一次拿到AOCODARC H7DUAL这块飞控板时，可能会被密密麻麻的引脚和复杂的配置选项吓到。别担心，这篇教程将带你从零开始&#xff…...

2026/5/7 19:32:04 阅读更多 →

League Akari：你的英雄联盟游戏体验进化指南

League Akari：你的英雄联盟游戏体验进化指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 想象一下这样的场景：你正在…...

2026/5/7 19:28:13 阅读更多 →