这篇发表于 2026 年 3 月的论文由华为与多伦多大学联合完成是机器人具身操作领域首次在统一基准、统一扰动、统一评估协议下对视觉‑语言‑动作模型VLA与世界动作模型WAM两大技术路线开展的全面对比。文章不预设立场、不偏向任何范式以实验数据回答行业最关心的问题世界模型带来的 “物理预测能力”是否真的让机器人在真实干扰环境中更稳、更通用并清晰揭示两类模型的能力边界、内在机理与工程落地代价。原文链接https://arxiv.org/abs/2603.22078本文也正式收录在具身智能之心开源知识库内更多具身最新技术、投融资、产品政策、上下游信息欢迎加入原文链接机器人操作的两条路线之争全面对比WAMs是否比VLAs的泛化能力更强研究缘起机器人操作的两条路线之争在真实场景中机器人执行抓取、装配、整理等任务面临光照变化、相机抖动、背景杂乱、物体位置偏移等大量不可控干扰。能否在扰动下稳定完成任务直接决定技术能否落地。当前主流解决方案分为两条路径视觉‑语言‑动作模型VLA以图文多模态大模型为基础将视觉观测、语言指令直接映射为机器人动作。它是目前最成熟、部署最广泛的方案优势是推理速度快、工程链完善但依赖大量机器人演示数据对未见过的环境扰动鲁棒性不足。世界动作模型WAM以视频生成式世界模型为基础先学习海量互联网视频中的时空演化规律能够 “预测未来状态”再基于预测生成动作。这类模型被认为具备更强的物理理解与泛化能力但推理开销大、实际鲁棒性缺乏系统性验证。在此背景下本文围绕四个核心问题展开研究WAM 在各类环境扰动下是否真的更鲁棒这种鲁棒优势是否在所有干扰类型中都成立两类模型性能差异的根本来源是什么落地时的推理速度与计算代价差距有多大核心差异VLA 与 WAM 的本质机理区别论文从架构、学习目标、决策方式三个层面清晰界定了两类模型的底层不同实验设计双基准 七维扰动保证严谨与公平为避免单一环境带来的偏差研究采用两个互补的强化基准并统一施加7 大类共 21 项扰动高度贴近真实工业与家庭场景。实验平台LIBERO‑Plus单臂 7 自由度机器人40 项桌面操作任务侧重精细操作鲁棒性RoboTwin 2.0‑Plus双臂 14 自由度机器人50 项协作操作任务侧重双臂协调稳定性。七大类扰动维度机器人初始状态扰动关节位置、夹爪状态随机化相机视角扰动距离、角度、朝向变化语言指令扰动同义改写、增加干扰、目标式描述光照扰动颜色、强度、阴影、高光变化背景扰动材质、纹理、颜色替换传感器噪声扰动模糊、雾化、畸变物体布局扰动干扰物数量、目标位姿变化评估指标任务成功率衡量扰动下的操作鲁棒性单块动作推理时间衡量落地部署的实时性。核心结果四类关键发现WAM 在视觉类扰动中具备显著鲁棒优势在光照变化、图像噪声、背景杂乱、物体布局干扰等视觉外观类扰动下WAM 表现明显优于普通 VLA。在双臂任务 RoboTwin 2.0‑Plus 中LingBot‑VAWAM整体成功率 74.2%显著高于π 0.5 \pi_{0.5}π0.5​VLA的 58.6%在单臂任务 LIBERO‑Plus 中Cosmos‑PolicyWAM达到 82.2%GE‑ActWAM达到 80.3%。其核心原因是WAM 从海量视频中学习到了时空动态先验能够在画面外观发生变化时依然抓住物体与场景的本质结构。WAM 存在明确短板几何配置类扰动鲁棒性不足当扰动来自相机视角大幅变化、机器人初始关节姿态改变时WAM 的鲁棒性明显下降甚至低于部分 VLA 模型。这是因为视频预训练只学习动态外观无法覆盖相机几何、机器人运动学结构等物理本体配置变化而这也是当前所有具身操作模型共同的技术挑战。顶级 VLA 可通过数据多样性达到超越 WAM 的鲁棒性π 0.5 \pi_{0.5}π0.5​作为经典 VLA 模型未使用世界模型结构但依靠大规模多源数据训练机器人数据 互联网图文与视频数据在 LIBERO‑Plus 上实现 85.7% 的成功率超过所有参评 WAM。这一结果直接说明显式世界建模并非鲁棒性的唯一来源数据规模、多样性与训练策略同样可以让 VLA 达到顶尖水平。混合架构的性能居中融合方式决定上限MOTUS、VLA‑JEPA 等在 VLA 基础上引入世界模型辅助任务的混合架构鲁棒性高于普通 VLA但低于纯 WAM。这表明简单拼接视频先验不足以发挥世界模型的全部能力如何将时空动态先验高效融入 VLA比 “是否融合” 更重要。工程落地关键WAM 推理速度存在数量级差距论文给出了可直接用于工程选型的速度对比以π 0.5 \pi_{0.5}π0.5​63ms / 动作块作为基准GE‑Act慢 4.8 倍Cosmos‑Policy慢 6.2 倍LingBot‑VA实机配置慢 7.6 倍MOTUS慢 18.6 倍LingBot‑VA仿真配置慢 83 倍WAM 的速度瓶颈来自未来状态去噪为了提升预测准确性需要多次迭代去噪鲁棒性越高延迟越大。这使得 WAM 在需要高频、实时控制的场景中目前难以直接部署。机理总结为什么两类模型表现不同论文将所有差异归结为三点底层逻辑预训练目标决定先验类型VLA 擅长静态语义WAM 擅长动态时序这是性能分化的根源。动作生成方式决定泛化路径VLA 靠数据覆盖泛化WAM 靠预测物理规律泛化。计算流程决定落地代价VLA 推理简单高效WAM 预测步骤多、成本高。研究结论与技术选型指南本文最终给出中立且明确的结论WAM 在视觉干扰多、数据稀缺的场景更具优势但对相机与本体几何变化敏感且推理速度慢VLA 在数据充足、需要实时控制的场景更实用顶级 VLA 的鲁棒性可超越 WAM混合架构是现阶段的折中方案但仍需优化先验融合方式未来方向提升 WAM 推理效率、增强模型对几何配置变化的鲁棒性、实现 VLA 与 WAM 的深度融合。基于以上结论可直接形成技术选型逻辑视觉干扰强、数据少、对实时性要求不高 → 选择 WAM要求高速控制、硬件资源有限、已有大量机器人数据 → 选择成熟 VLA希望平衡鲁棒性与速度 → 采用 VLA 世界模型辅助的混合架构重磅VLARL方向首个系统教程来啦Online RL/Offline RL/test time RL等具身智能的WAM与世界模型一份完整指南一览具身智能的行业全局从产品经理的角度出发推荐阅读我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务好用高性价比面向具身科研领域打造的轻量级机械臂VLA/VLA触觉/VLARL/具身世界模型等具身大脑小脑算法与实战全栈路线来啦~从零训练你的足式机器人让你的足式机器人真正动起来~具身领域的目标导航到底是什么有哪些主流方法Diffusion Policy在具身智能领域是怎么应用的为什么如此重要具身智能视觉语言动作模型VLA怎么入门具身智能与传统机器人任务有什么区别主流方案有哪些1v1 科研论文辅导来啦重磅具身智能之心论文辅导来啦近20方向顶会/顶刊/SCI/EI/中文核心/申博等