A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo实现人类水平的机器人操作能力需要具备精细交互能力的灵巧机械手以及标准化的评估基准。近期来自中国科学院自动化研究所、上海交通大学、香港中文大学等单位的研究团队提出了 DexJoCo一个面向任务导向灵巧操作的基准测试与工具集涵盖工具使用、双手协调、长时程执行与推理四类任务为灵巧手操作领域的研究提供了系统化的评估框架与数据基础设施。一、研究背景与动机从人类演示中学习是通往通用机器人操作的有效路径。近年来机器人学社区已发展出低成本的数据采集流程并提出了大量基于视觉-语言-动作VLA架构的基础模型。然而现有的大多数系统和数据集主要聚焦于机械臂-夹爪平台。人类水平的操作需要能够执行精细且接触密集型交互的灵巧手这使得灵巧操作学习的重要性日益凸显。推动灵巧操作学习的发展需要标准化的评估基准来系统性地衡量模型能力并指导未来研究。然而现有的灵巧操作基准仍存在若干局限性首先许多现有工作省略了机械臂而仅考虑手部设置以扩大有效工作空间导致基准轨迹难以在真实场景中实现其次当前基准主要评估手中操作或拾取-放置任务但手中操作任务在功能多样性上受限而拾取-放置任务无法展现灵巧手相较于简单夹爪的独特能力限制了向通用操作迈进的步伐第三现有工作缺乏可靠且用户友好的系统来采集高质量的灵巧操作轨迹由于复杂的灵巧手行为难以通过常规运动规划生成大多数现有工作依赖强化学习或自动化生成流程获取轨迹这些方式往往产生与人类自然操作模式不一致的行为第四现有灵巧操作基准缺乏面向现代VLA模型的标准化语言指令和统一数据格式使得系统性的训练与评估面临困难。**核心问题**机器人学习社区目前仍缺乏一个面向灵巧手操作的标准化基准这凸显了对一个统一评估框架的需求。二、DexJoCo 概览DexJoCo 是一个面向灵巧操作的基准测试与工具集包含任务环境、人类演示采集工具、策略训练接口与评估工具。该基准围绕功能导向的交互设计强调展现灵巧手的独特能力特别是在需要精细手指协调与复杂物体交互的工具使用场景中。此外DexJoCo 引入了长时程任务、双手协调任务和推理任务以在多维度上评估策略性能。图1DexJoCo 任务概览涵盖工具使用、双手协调、长时程执行与推理四类任务来源论文 Figure 1如上图所示DexJoCo 的核心特色可概括为以下四个方面**1功能导向的任务设计**包含11项功能 grounded 的灵巧操作任务涵盖工具使用、双手协调、长时程执行与推理。每项任务均反映日常生活中的真实活动而非简单的物体搬运。**2低成本数据采集系统**开发了基于动捕手套的遥操作系统配合重定向模块以约2300美元的成本实现高效的人类演示采集。**3丰富的演示数据集**在仿真环境中采集了1100条人类演示轨迹并支持通过域随机化进行轨迹回放以评估鲁棒性。**4多模型评估支持**支持对ACT、Diffusion Policy、π0.5、GR00T N1.5等现代策略模型进行系统评估。三、机器人平台与观测空间DexJoCo 基于 MuJoCo 物理仿真器开发能够实现准确且逼真的物理建模。机器人系统由三个主要组件构成Rethink Robotics 底座、Franka Panda 机械臂以及用于灵巧操作的 Allegro Hand。这些资产在机器人学社区中已被广泛采用具有成熟且精确的建模。在感知层面DexJoCo 提供了丰富的仿真环境观测信息包括第三人称视角与腕部安装的RGB及RGB-D图像、场景中交互实体的物体位姿、机器人运动状态、当前末端执行器位姿以及手部关节角度。在动作空间方面采集的机器人轨迹中机械臂动作以世界坐标系下的目标绝对末端执行器位姿表示手部动作则以目标绝对关节角度指定。四、人类演示数据采集系统4.1 硬件设计DexJoCo 的硬件系统在低成本与易用性之间取得了平衡。手部运动捕捉采用 Rokoko Smartgloves 完成避免了基于相机方法中的遮挡问题同时两个 HTC Vive Tracker 与两个 HTC Base Station 用于追踪腕部运动并控制 Franka 末端执行器位姿。该 setup 能够以约2300美元的成本实现精确的遥操作轨迹采集。此外研究团队还设计了一个简易的3D打印连接器将追踪器与手套整合为统一的装配体。图2DexJoCo 遥操作系统。操作者佩戴 Rokoko 数据手套与 HTC Vive 追踪器通过实时重定向控制仿真环境中的机器人来源论文 Figure 34.2 遥操作算法遥操作系统由手部运动重定向与腕部运动追踪两部分组成。由于人手与机器人手在结构上存在差异直接的线性映射并不可行。DexJoCo 采用 GeoRT 方法这是一种轻量级的自监督重定向方法无需成对的人机标注数据。重定向模型将人类指尖关键点映射到机器人关节位置通过最小化包含多个约束项的损失函数实现方向保持项保留指尖运动方向覆盖项扩大工作空间覆盖范围平坦项保持均匀灵敏度捏合项保留捏合行为碰撞避免项则防止自碰撞。在数据采集过程中仅记录指尖工作空间并用于训练从而实现精确的实时遥操作。图3手部运动重定向示意图。通过 MLP 将人类指尖姿态映射到 Allegro 灵巧手的关节配置来源论文 Figure 3对于腕部追踪追踪器以固定方式安装使得人类腕部运动与 Franka 末端执行器对齐。初始腕部位姿被记录为参考后续动作以相对位姿变化表示机器人通过执行这些增量动作来复现期望的运动。五、基准任务设计DexJoCo 的每项任务由一组交互物体和任务目标定义。任务目标被形式化为功能性的成功约束集合包括时序或顺序执行约束、目标物体位姿条件、关节状态要求以及接触约束。只有当所有任务相关的目标约束同时满足时任务才被视为成功。5.1 设计原则任务设计遵循四项核心原则**功能交互**任务设计具有功能语义反映日常人类活动而非简单的物体搬运。此外涉及的物体提供明确的视觉交互反馈使任务进度和完成状态可被直观感知。**灵巧依赖性**任务设计使得成功执行根本上依赖于灵巧操作能力包括精细的手指协调与关节式物体交互这些能力无法通过平行夹爪可靠实现。**长时程组合性**任务涉及多阶段执行子目标之间存在时序依赖关系。**双手协调**部分任务需要双手协调操作两只手之间具有不对称的功能角色。5.2 任务类别与场景基于上述原则任务被组织为面向能力的类别包括工具使用任务、推理任务、双手协调任务和长时程任务确保广泛且结构化的基准覆盖。每个任务的构建成本相对较低便于高效且可扩展的基准扩展。图4DexJoCo 任务场景示例来源论文 Figure 45.3 交互式资产设计基础场景设计遵循 RoboSuite 的规范机器人资产采用 MuJoCo Menagerie 中的模型。新任务通过在基础场景中实例化任务特定物体并定义相应的成功条件来构建。对于每项任务研究团队从 RoboCasa 和 SAPIEN 的 PartNet-Mobility 中精选高质量资产这些资产通常提供预定义的物理和动力学参数。对于缺乏此类标注的资产则使用 Hunyuan3D 生成并手动分配物理合理的属性。为了增强功能交互的真实感研究团队还引入了显式的视觉状态变化。例如在浇水任务中当喷壶手柄达到预定义的关节状态阈值时会显示水流效果在解锁平板任务中手指接触时按钮会高亮显示在点击鼠标任务中按下鼠标按钮会激活电脑显示器指示交互成功。六、域随机化与数据增强为了评估策略在更广泛数据分布上的性能DexJoCo 为所有任务场景引入了域随机化选项。在生成更多样化的轨迹方面不仅随机化物体在桌面平面上的摆放位置还变化桌面高度。为了增加视觉多样性随机化第三人称相机位姿、场景光照的方向与颜色以及桌面纹理。值得注意的是视觉随机化可以通过在不同渲染设置下回放相同轨迹来高效应用这使得无需额外遥操作努力即可实现可扩展的数据增强。对于相机位姿随机化首先在球面上均匀密集采样相机位姿然后选择50个遮挡最小的位姿。对于光照随机化场景中的每个光源在其位置、方向和漫反射颜色方面进行随机化以引入多样化的光照条件。对于桌面纹理随机化则从预构建的纹理库中采样纹理。七、策略评估与实验分析7.1 基线模型DexJoCo 对四种策略进行了基准测试ACT、Diffusion PolicyDP-T 与 DP-C 两种架构变体、π0.5 以及 GR00T N1.5。ACT 与 DP 从头开始训练使用视觉与本体感知信息而 π0.5 与 GR00T N1.5 则通过 LoRA 进行微调使用流匹配技术并额外以语言为条件。由于这些预训练模型默认的32维动作头对于双手任务不足研究团队保留了预训练权重但随机初始化了额外的维度部分预训练-动作头。所有基线模型将动作分块形式化为给定历史观测的帧序列以及可选的语言指令建模未来步动作块的条件概率。在模型部署方面评估采用异步推理机制在当前动作块执行的同时生成下一个动作块消除空闲等待。重叠的块在时序上进行集成以实现平滑性。这模拟了真实世界的部署场景并凸显了推理频率的影响更轻量的策略运行更快能够利用更近期的观测来减少空闲帧并提升响应性。7.2 主要实验结果实验结果表明DexJoCo 基准具有较高的挑战性。在视觉随机化条件下几乎所有策略的成功率都出现了显著下降表明当前策略的视觉鲁棒性仍有提升空间。π0.5 在整体成功率上表现最优这得益于其大规模预训练然而规模小得多的 DP-T约1亿参数从头训练表现与之相当π0.5 在单臂任务上占优而 DP-T 在双手任务上具有竞争力这可能是因为从头训练额外的动作维度削弱了 π0.5 的预训练优势。有趣的是DP-C 在解锁平板和夹钳任务上显著优于其他所有策略。进一步分析发现DP-C 在精确操作如按钮按压和铰链交互如挤压夹钳方面表现出色。研究团队推测这一优势源于 DP-C 是唯一使用 FiLM 进行观测注入的策略而非自注意力或交叉注意力机制这可能提供了更强的细粒度视觉感知能力从而有利于精确操作。图6策略性能与失败模式分析。展示了不同基线模型在各项任务上的成功率对比来源论文 Figure 57.3 失败模式分析通过对失败案例的系统分析研究团队在多个典型任务中观察到以下现象在基于按钮的任务解锁平板、点击鼠标、拍照中策略能够拿起平板或相机、将鼠标推到鼠标垫上但常常未能按下目标按钮这表明策略能够感知物体但忽略了其交互元素在插入步骤中如装配和汉诺塔任务失败概率较高在夹钳任务中策略常常能够抓取但未能挤压和释放夹钳可能是由于时序记忆不足在微波炉任务中策略通常能够将热狗放入微波炉但随后会连同手一起将其取出。图7典型任务中的失败案例可视化来源论文 Figure 67.4 多任务与动力学评估当在所有任务上联合训练时与单任务训练相同的步数DP-T 在每项任务上均出现性能下降而 π0.5 在点击鼠标和夹钳任务上成功率有所提升尽管其平均成功率下降。在随机化的关节摩擦、刚度和物体质量条件下π0.5 的平均成功率高于 DP-T这证实了该仿真基准能够捕捉不同动力学条件下的性能趋势可作为真实世界能力的代理尽管存在仿真到现实的差距。在语言泛化方面研究团队在解锁平板任务上训练 π0.5 使用单位数字密码1-5并在已见数字、算术表达式和英文单词上进行评估。结果显示模型倾向于默认固定的动作偏差而非真正的语言条件化行为这表明当前 VLA 模型在语言泛化方面仍有进一步探索的空间。图8π0.5 语言泛化实验结果热力图。展示了模型在不同语言指令下的输出分布来源论文 Figure 7八、与现有基准的对比研究团队将 DexJoCo 与现有的操作基准进行了系统对比。如下表所示DexJoCo 在任务类别覆盖、手部工具使用、双手协调、推理能力以及动捕系统支持等方面均具有更全面的特性同时提供了易于使用的手部运动数据采集基础设施。|基准|手部操作|工具使用|双手协调|推理|数据采集方式|| — | — | — | — | — | — ||CALVIN|✓| | | |运动规划||LIBERO| | | | |人类演示||RoboTwin 2.0|✓| | | |运动规划||DexMimicGen|✓|✓|✓| |少量人类MimicGen||Bi-DexHands|✓|✓|✓| |RL策略||DexJoCo|✓|✓|✓|✓|人类演示|表1DexJoCo 与现有操作基准的对比来源论文 Table 1九、讨论与未来方向通过本研究研究团队识别了现有方法中的若干值得关注的方向**面向灵巧手的基础模型**当前 VLA 模型主要在基于夹爪的数据上进行预训练导致动作空间与灵巧手不匹配。其动作头未能捕捉高维关节耦合关系限制了表达能力和迁移效果这激发了对手部中心预训练的具身感知表示的探索需求。**多模态策略的必要性**仅基于视觉的策略对于接触密集型操作而言是不够的。即使具备本体感知信息它们仍然缺少接触力等关键线索引入触觉感知能够实现更完整的交互建模这使得多模态策略对于精确操作成为必要。**仿真到现实的迁移**提升仿真在物理、视觉和感知方面的逼真度如物体属性、渲染和传感器信号可以获得更一致的动力学与感知改善零样本迁移效果并激发超越域随机化的系统性的仿真-现实对齐研究。十、总结DexJoCo 为灵巧操作领域提供了一个全面的基准测试与工具集通过11项功能导向的任务、低成本的遥操作系统以及丰富的演示数据集填补了现有基准在灵巧手操作评估方面的空白。实验评估揭示了当前策略在精确操作、视觉鲁棒性和双手协调等方面的能力边界为未来研究指明了方向。该工作有望推动灵巧手操作学习向更通用、更贴近真实应用场景的方向发展。**论文信息**Wang H, Zhao W, Wang X, et al. DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo[J]. arXiv preprint arXiv:2605.16257, 2026.**项目主页**https://dexjoco.github.io/**论文地址**https://arxiv.org/abs/2605.16257具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html