从视觉到视触觉、从离线评估到在线强化学习、从仿真到真实世界的三维扩展来源arXiv:2605.17912机构清华大学、上海交大、浙大、斯坦福等领域具身智能 · 世界模型 · 评测基准一、背景世界模型评测亟需突破三重边界在具身智能快速发展的当下世界模型World Model正逐渐成为连接感知与决策的核心纽带。通过预测动作条件下的未来状态世界模型使智能体能够在与环境的交互中进行推理与规划为机器人操作、自动驾驶和智能交互等应用提供了重要的认知基础。从Dreamer系列在强化学习中的样本效率提升到基于扩散模型和自回归架构的大规模视频生成模型再到融合物理约束的交互式建模方法世界模型正从低维动力学表示向视觉基础、动作感知的预测框架持续演进。然而与世界模型能力快速提升形成对比的是现有评测基准主要存在三方面局限。第一模态单一绝大多数基准仅依赖视觉输入忽略了触觉反馈在接触丰富操作中的关键作用。第二功能局限下游评估多局限于开环规划或静态策略评估鲜有研究将世界模型作为交互式强化学习环境来考察其支持策略持续迭代优化的能力。第三平台封闭评测结果几乎完全来自仿真环境缺乏在真实机器人平台上的验证。图1WorldArena 2.0沿模态、功能、平台三个维度扩展示意图来源论文Figure 1针对上述三重局限清华大学联合上海交通大学、浙江大学、斯坦福大学、香港大学、普林斯顿大学、中国科学院、中国科学技术大学、北京大学和新加坡国立大学等机构的研究团队推出了WorldArena 2.0评测基准从模态、功能和平台三个维度系统扩展了具身世界模型的评测边界。二、模态扩展从纯视觉到视触觉融合视触觉融合是世界模型迈向真实物理交互的关键一步。在接触丰富的操作任务中视觉信息往往只能提供部分可观测的状态而触觉信号能够直接反映接触力、滑移状态和材料交互等关键物理信息是完成精细操作不可或缺的感知通道。图2标准化视触觉世界模型架构设计左与基于UniVTAC仿真器的评测流程右来源论文Figure 2WorldArena 2.0基于UniVTAC仿真器构建了标准化的视触觉评测流程包含三个核心模块2.1 触觉VAE模块负责将触觉形变图序列编码并与原视频世界模型的潜在空间对齐实现触觉信息与视觉信息的统一表征。这种设计使得现有视觉世界模型可以即插即用地扩展触觉感知能力无需对底层架构进行重构。2.2 视触觉双流世界模型同步执行视频预测和触觉感知预测的去噪过程保持模态特异性动力学的同时实现跨模态协调确保两种感官通道的信息能够有效互补。2.3 动作扩散头接收历史状态、动作以及预测的视触觉潜在表示直接推断未来动作完成从感知预测到功能操作的闭环。在UniVTAC仿真器上研究团队对Vidar、Wan2.2、Genie Envisioner等代表性视觉世界模型进行了扩展评测考察其在插入HDMI和举起瓶子两个接触丰富任务上的表现模型PSNR↑SSIM↑插入HDMI成功率举起瓶子成功率平均成功率ACT基线——20%80%50%Vidar13.970.27870%0%35%Genie Envisioner13.360.4560%0%0%Wan2.221.260.746100%0%50%表1视触觉世界模型在UniVTAC仿真器上的触觉预测质量与任务成功率对比来源论文Table 1**关键发现**Wan2.2在触觉预测质量PSNR 21.26SSIM 0.746和插入HDMI任务成功率100%上均表现优异验证了通用世界模型丰富的跨模态知识先验能够有效对齐触觉模态。然而在需要持续力控制的长程任务举起瓶子中现有世界模型仍面临挑战长程触觉反馈的建模是未来重要研究方向。三、功能扩展世界模型作为强化学习环境将世界模型用作强化学习的交互环境是检验其功能实用性的更高标准。传统评测关注世界模型能否生成视觉上合理的未来帧而作为RL环境的评测则关注其能否支持智能体通过反复交互学习出有效的行为策略。这一转变意味着对世界模型的要求从预测正确升级为训练有效。图3WorldArena 2.0将世界模型作为RL环境的框架包含训练、策略优化和评估三阶段来源论文Figure 3WorldArena 2.0提出的标准化框架将真实交互形式化为部分可观测马尔可夫决策过程包含四个核心组件世界模型环境以当前观测和策略动作作为输入输出预测的下一时刻观测奖励模型基于当前观测和动作预测即时奖励策略模型输出以当前观测为条件的动作分布优化模块通过最大化期望折扣回报来更新策略参数研究团队在RoboTwin 2.0的点击铃铛和调整瓶子任务上进行了系统评测对比了OpenSora、IRASim、iVideoGPT、Cosmos-Predict-2.5、RoboScape、Ctrl-World和WoVR等七种世界模型方法代理网络奖励VLM奖励视觉相似度奖励点击铃铛调整瓶子点击铃铛调整瓶子点击铃铛调整瓶子SFT基线43.7555.0843.7555.0843.7555.08仿真器RL87.3078.9087.4578.9087.4578.90OpenSora56.2560.1655.2757.0353.1358.00IRASim53.1361.3353.5258.9850.7859.38iVideoGPT52.5356.2548.4458.5952.1560.93Cosmos-Predict-2.567.3863.4854.1058.4063.0961.13RoboScape68.7560.7455.4659.3863.4859.18Ctrl-World69.5370.7066.8065.0469.9266.02WoVR75.0067.1969.3864.4572.0761.35表2不同世界模型作为RL环境训练的策略在RoboTwin 2.0上的任务成功率%来源论文Table 2图4基于代理奖励模型的点击铃铛任务中不同世界模型环境的策略训练曲线来源论文Figure 5**关键发现**WoVR在短程任务点击铃铛上达到75.00%的成功率Ctrl-World在长程任务调整瓶子上达到70.70%均显著优于监督微调基线。三种奖励模型对比显示基于代理网络的奖励模型表现最为稳健而VLM-based奖励因未针对任务微调相似度奖励则高度依赖观测预测质量。四、平台扩展跨具身形态的仿真与真实世界评测跨平台评测是WorldArena 2.0最具特色的设计之一。通过在三个异构平台上运行统一协议研究团队得以系统评估世界模型的跨域泛化能力。图5WorldArena 2.0的三个评测平台RoboTwin 2.0、LIBERO和AgileX ALOHA真实机器人来源论文Figure 44.1 RoboTwin 2.0域随机化双臂仿真提供731个物体、147个类别的双臂操作环境具有广泛的域随机化机制涵盖场景杂乱、光照变化、纹理差异、桌面高度调整和语言指令变化等多个维度重点考察模型的视觉与空间分布外泛化能力。4.2 LIBERO结构化知识迁移诊断基于Robosuite构建了130个语言条件的单臂操作任务通过程序化生成隔离空间、物体、目标和混合知识迁移提供了细粒度的诊断能力帮助精确识别世界模型在何种知识维度上存在学习困难。4.3 AgileX ALOHA真实世界物理验证配备RANGER MINI 3.0底盘和PiPER 6自由度轻量机械臂在真实环境中执行倒水和擦桌子任务直接检验仿真到现实的迁移能力。真实世界评估天然包含光照变化、背景差异、传感器噪声和未建模物理效应提供了最为严格的性能检验。在跨平台任务成功率评测中研究团队评估了世界模型作为数据引擎和动作规划器的表现模型RoboTwin 2.0LIBERO真实世界数据引擎动作规划数据引擎动作规划数据引擎动作规划GigaWorld21361900Genie Envisioner7211020020TesserAct135135030Vidar1353219400Wan 2.215411220100CogVideoX3288161050表3世界模型作为数据引擎和动作规划器在三个平台上的任务成功率%来源论文Table 3部分数据**关键发现**作为数据引擎没有任何世界模型能够匹配真实演示数据的质量。真实世界评估中仅有少数模型取得非零成功率且远低于实际部署需求。多数模型在擦桌子和倒水任务上的成功率接近或等于零凸显了仿真到现实的显著鸿沟。五、跨平台相关性分析揭示仿真与现实的关联模式研究团队深入分析了跨平台排名相关性为理解世界模型的迁移特性提供了量化依据。图6RoboTwin、LIBERO与真实世界之间的任务成功率相关性分析来源论文Figure 6在感知质量方面视觉质量、运动质量、物理遵循性和三维准确性在跨平台间展现出较强的相关性。例如RoboTwin与LIBERO之间的物理遵循性排名相关系数高达0.839表明低层保真度和几何推理能力具有较好的迁移性。相比之下内容一致性和可控性的跨平台相关性较弱说明语义对齐和指令级控制对域变化更为敏感。图7RoboTwin与LIBERO之间的视频质量跨平台相关性六个维度来源论文Figure 7图8RoboTwin与真实世界之间的视频质量跨平台相关性来源论文Figure 8图9LIBERO与真实世界之间的视频质量跨平台相关性来源论文Figure 9在功能评估方面任务成功率在两个仿真器之间呈现正相关Spearman相关系数0.771但当与真实世界性能相比时相关性大幅下降RoboTwin与真实世界为0.348LIBERO与真实世界为0.522。这一模式清晰地揭示了仿真到现实的鸿沟无论是感知层面的质量还是功能层面的成功率仿真环境中的表现都不能可靠地代理真实世界部署效果。物理世界评估仍然是不可或缺的最终检验标准任何仅在仿真中验证的模型都可能存在未被发现的真实世界失效模式。**启示**物理遵循性和三维准确性是跨平台迁移性最好的指标维度而语义层面的指标迁移性相对较弱。这提示研究者在设计世界模型时应优先强化物理一致性和几何准确性这些能力最有可能带来跨平台的实际收益。六、总结与展望WorldArena 2.0通过模态、功能和平台三个维度的系统扩展为具身世界模型评测建立了一个更加全面和贴近现实的评估框架。该基准首次将视触觉感知、在线强化学习和跨平台真实世界验证纳入统一评测体系对12种前沿世界模型进行了系统性评估为领域提供了宝贵的实证洞察。实验结果揭示了若干重要趋势通用世界模型在触觉模态扩展上展现出令人鼓舞的潜力Wan2.2等模型通过即插即用的触觉扩展即可在接触丰富任务上取得优异表现表明跨模态知识迁移是可行的技术路径世界模型作为RL环境已展现出支持策略优化的实用价值顶尖模型的训练效果已接近仿真器训练水平预示着世界模型辅助强化学习是一个值得深入探索的方向跨平台评测一致地暴露了仿真到现实的性能差距这种差距在功能评估中尤为显著提醒研究者必须将真实世界验证作为模型开发的必要环节展望未来WorldArena 2.0计划进一步扩展感官模态覆盖范围纳入更多物理传感器信号如力矩、声音和本体感知信息增加任务复杂度和多样性涵盖更广泛的物体类别和操作类型并探索更具挑战性的真实世界场景包括非结构化环境和动态干扰条件。随着世界模型从视觉预测器向交互式物理环境持续演进全面而严格的评测基准将成为推动这一领域健康发展的关键基础设施。WorldArena 2.0所建立的多维评测框架不仅为当前研究提供了可靠的评估工具更为未来世界模型迈向真实世界应用奠定了坚实的评测基础。参考文献Shang Y, Tang Y, Ma Y, et al. WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform. arXiv:2605.17912, 2026.具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html