Human2Humanoid:面向人形机器人的物理-觉察跨形态运动重定向
26年6月来自中科大的论文“Human2Humanoid: Physics-Aware Cross-Morphology Motion Retargeting for Humanoid Robots”。将人体动作重定向至人形机器人对于遥操作、模仿学习及人机交互至关重要。然而由于人类与机器人在形态结构上存在显著差异包括骨骼拓扑结构、肢体比例及自由度等方面的不同加之成对动作数据的匮乏这一任务极具挑战性。本文提出一种名为 Human2Humanoid 的无监督动作重定向框架能够高保真地将人体动作迁移为人形机器人的动作行为。为了在缺乏成对数据的情况下弥合域间差异采用一种基于 CycleGAN 的架构并结合感知骨骼结构的图卷积网络以捕捉依赖于拓扑结构的动作特征。针对跨域尺度不匹配问题引入一种形态不变的末端执行器一致性损失函数通过对齐归一化后的末端执行器轨迹在不同形态主体间保持动作语义。此外为提升物理合理性并减少接触伪影施加显式的物理可行性约束以促使机器人复现源动作中的接触模式。实验结果表明该方法无需成对数据即可成功将人体动作重定向至 Unitree G1 人形机器人且在下游任务的可控性与物理可行性方面均优于现有方法。机器人领域的运动重定向针对人形机器人的运动重定向传统方法主要采用逆运动学和约束优化技术。Ayusawa Yoshida 提出联合优化形态参数与机器人运动在复现源运动特征的同时减少几何不匹配 [16]。Penco 针对人形机器人遥操作将实时全身运动重定向建模为约束逆运动学与二次规划问题 [17]。近期Araujo 指出足部滑动、自碰撞及物理不可行性等重定向伪影会严重影响后续的人形机器人运动跟踪效果并提出“通用运动重定向”GMR方法结合非均匀局部缩放与约束优化来解决这些问题 [10]。这些基于优化的方法具有良好的可解释性且能直接施加物理约束然而它们往往对初始条件、目标权重及针对特定运动的参数调整较为敏感。当形态差异较大时几何拟合可能产生虽可运动但语义失真的姿态例如步幅压缩、手臂轨迹偏移或站立阶段不稳定等。基于学习的方法旨在通过从数据中学习人机映射关系来减轻上述工程负担。然而其核心难点在于监督学习需要成对的人机运动数据而此类数据的采集成本高昂且难以在不同形态的机器人之间进行扩展。S3LE 虽通过自监督生成流程减少人工数据采集量但其学习过程仍依赖于成对的人体姿态与机器人构型数据 [6]。此外该方法的评估主要集中在 COMAN 人形机器人的上半身运动未涉及根节点位移及足地接触等稳定的下半身控制问题。近期的神经运动重定向方法通过构建经物理特性优化的监督信号进一步提升运动的可行性。例如NMR 提出一种“聚类-专家物理细化”流程先筛选人体运动数据进行基于优化的重定向与滤波处理再利用仿真环境中的专家策略推演rollout生成符合物理规律的人机运动配对数据 [18]。该策略提升运动跟踪质量但其有效性仍取决于在预先筛选出的“机器人可行运动子空间”内生成的、针对特定形态的成对监督数据。因此将其扩展到新的机器人形态需要重新构建同样的机器人专用数据构建流水线并针对目标形态和动力学特性重新配置其中的关键环节。此外由于源动作经过筛选以保留机器人原则上可执行的动作且配对的目标动作也经过了针对跟踪可行性的修正因此学习到的映射可能会偏向于动力学上可跟踪的动作而无法完全保留开放式人类动作的多样性和细粒度语义。这种局限性在涉及明确环境几何结构或外部接触的动作如坐下、踏上台阶或物体操作中尤为明显。生成式模型为跨形态动作重定向提供了另一种途径。G-DReaM 利用图结构来表示异构形态并在缺乏真实目标动作数据的情况下使用能量引导的重定向损失来训练图条件扩散模型 [19]。这一方向提高了跨形态的扩展性但要实现人形机器人的可靠部署目标动作仍需保持语义结构、接触一致性及运动学可行性。总体而言现有的机器人动作重定向方法要么依赖于显式优化具有可解释性但对参数调整敏感要么依赖于学习的映射通常通过数据收集、筛选和基于物理的细化重新引入配对监督。这促使人们探索一种无需配对监督的重定向框架该框架既能保留跨形态语义又能确保与接触相关的物理合理性。动画与计算机图形学中的动作重定向动作重定向在计算机图形学和动画领域也得到了广泛研究其目标是在具有不同体型或骨架的角色之间复用动作资产。早期研究将该问题建模为受约束的动作编辑任务。例如Gleicher 在进行跨角色动作适配时利用时空约束来保持关键动作属性如脚与地面的接触[4]。由于这些建模方法与机器人重定向中使用的优化方法密切相关它们也存在类似的缺陷。动画领域中基于学习的重定向方法为非配对动作迁移提供了重要参考。神经运动学网络Neural Kinematic Networks结合了解析式正向运动学层与循环一致性及对抗性目标从而实现了无需配对动作序列的无监督重定向 [14]。PMnet 将局部姿态迁移与全局运动适配分离开来从而减少了仅在关节空间对齐运动所导致的漂移和畸变 [20]。骨架-觉察网络Skeleton-Aware Networks 进一步引入拓扑-觉察卷积、池化pooling和反池化unpooling算子将同胚骨架编码到共享的潜空间中实现无需成对数据的跨角色运动重定向 [5]。Pose-to-Motion 将这一思想扩展到数据稀缺场景利用静态目标姿态作为先验信息合成出合理的目标运动 [15]。这些研究表明只要合理设计结构先验和循环风格的目标函数成对运动监督并非严格必要。计算机图形学领域的近期方法也更加明确地考虑几何、接触和生成式建模因素。R2ET 采用独立的残差模块分别用于骨架语义保持和几何感知校正从而减少穿模interpenetration和接触缺失等伪影 [11]。ReConForM 从接触语义出发利用一组可迁移的关键网格顶点在不同角色形态之间提升接触准确性和运动平滑度 [21]。MoReFlow 将重定向问题建模为特定角色运动嵌入空间之间的无监督流匹配flow matching并强调不同应用域侧重的重定向目标各异动画域侧重于风格和视觉合理性而机器人域则侧重于任务空间对齐和可执行性 [22]。尽管取得了这些进展上述重定向方法通常仅通过视觉合理性进行评估。它们无法直接应用于人形机器人因为后者要求关节轨迹满足特定的机体关节限位、全身稳定性、离地间隙以及防滑要求。此外这些方法往往假设不同机体之间具有一致的拓扑结构、同胚骨架以及可迁移的网格对应关系这与人类到人形机器人之间存在自由度和机械约束差异的设定不符。因此为了实现从人类到人形机器人的运动重定向有必要针对机器人特有的语义和物理约束对这些非成对重定向方法进行增强。下面介绍Human2Humanoid。该任务的目标是学习一个从人类运动域 B 到人形机器人运动域 A 的非成对映射 G_B→A。如图 1 所示该框架包含两个生成器 G_B→A 和 G_A→B以及两个判别器 D_A 和 D_B。假设可获取分别来自域 A 和域 B 的两组未配对运动数据集合 Q_A {q_A} 和 Q_B {q_B}这两组数据在时间上未对齐也不存在帧级别的对应关系。在训练过程中从每个集合中均匀采样固定长度的时间窗口构建用于对抗学习和循环学习的小批量mini-batch数据。为了解决形态差异并确保物理可行性结合骨架-觉察图卷积网络GCN并引入形态不变末端执行器一致性损失以及物理-觉察可行性约束。A. 网络架构骨架-觉察生成器为了有效处理具有层级结构的骨架数据在生成器中采用骨架-觉察图卷积网络Skeleton-Aware GCNs[5]这与以往将姿态视为简单向量的方法不同。该生成器由编码器、潜空间和解码器组成。编码器不将关节点特征展平而是利用 SkeletonConv 层。这种卷积操作显式地利用由邻接矩阵定义的骨架拓扑结构。此外该方法采用基于拓扑结构的池化pooling策略将高维骨架特征压缩至低维潜空间随后利用反池化unpooling操作恢复目标拓扑结构。这种设计使网络能够捕捉局部关节间的相关性并适应不同的运动链结构。SkeletonConv骨架卷积及拓扑池化/反池化操作均在每个时间步的空间骨架图上进行。通过在动作序列上应用滑动窗口式的生成器来建模时间一致性这既能促进帧与帧之间的平滑过渡又能保持局部的空间运动学特性。值得注意的是该方法并不要求不同具身embodiments之间存在逐关节的对应关系。骨架-觉察层在各自领域的原生运动学图上进行运算而跨域耦合则通过循环一致性目标以及形态不变性约束中用到的一组共享语义末端执行器semantic end-effectors来实现。逐帧姿态判别器该判别器以逐帧方式进行运作。对于由各关节旋转特征表示的输入姿态序列首先利用一个关节共享嵌入模块提取潜关节特征该模块由 1×1 卷积和 LeakyReLU 激活函数实现。基于这种帧级姿态表示判别器包含两个互补的分支。其中关节级姿态分支记为 D_each利用针对特定关节的线性头来预测关节级的真实度评分每个线性头将对应关节的潜在特征从 RC映射到 R。针对对抗性目标判别器的输出保留为各关节的评分而非聚合成单一标量评分。随后对每个关节的评分独立应用 LSGAN 损失并将所得的平方误差在采样时间窗口内的所有关节和帧上进行平均。B. 形态-无关末端执行器一致性损失人类与人形机器人在肢体长度和比例上往往存在显著差异。例如人类的手臂远长于 Unitree G1 等紧凑型机器人的手臂。若直接在笛卡尔空间中约束绝对位置可能会导致语义失效例如手部无法触及预期目标。因此本文提出一种形态-无关末端执行器一致性损失Morphology-Invariant End-Effector Consistency Loss来解决这一问题。该方法不直接对齐绝对坐标而是将末端执行器的轨迹对齐到一个相对于静止姿态T-pose定义的形态无关空间中。具体而言给定源人体动作 q_B 和生成的机器人动作 qˆ_A G_B→A(q_B)可通过正向运动学计算末端执行器的位置并比较其相对于各自 T-pose 的位移。设 E 为两个域中定义的共享语义末端执行器集合包括左/右手及左/右脚并设 FK_k(q,t) 表示末端执行器 k 在第 t 帧的位置。为了消除同一具身embodiment内不同序列间的差异相应的位移会根据该具身特有的、基于静止姿态计算出的身体尺度常数 S 进行归一化处理。C. 物理可行性约束无监督重定向retargeting往往会出现物理上不可行的伪影例如足部滑动、基座悬空以及违反机械限位。为了增强在真实机器人上的部署能力在训练过程中引入明确的足部接触、足部高度及关节限位约束。除非另有说明以下约束均适用于通过 G_B→A 生成机器人运动 qˆ_A 的过程。足部接触约束利用足部速度从源人体运动域 B推断出一个二值接触指示器 c(m)_B。m标记脚索引t定义时间利用该接触门控机制通过对目标足部速度施加惩罚抑制域 A 中生成的机器人运动中足部滑动现象。足部高度约束为了进一步提高支撑阶段的物理合理性生成的机器人运动中会对足部悬空现象进行惩罚。对于每个域标称足部接触高度是根据 T-pose 预计算得出的然后利用源域数据计算姿态权重掩码。这一基于高度的附加滤波机制剔除虚假的低速检测结果因此针对目标足部高度施加一项抗“漂浮”铰链惩罚。关节限位约束由于人形机器人具有严格的机械运动范围超出这些限制的生成运动可能会损坏硬件或触发紧急停止。因此引入一种关节限位损失用于惩罚超出范围 [q_min, q_max] 的预测机器人关节角度 qˆA。D. 完整目标函数Human2Humanoid 的训练由复合目标驱动。除了针对重定向retargeting的损失函数外还采用用于匹配数据分布的对抗损失、确保运动可逆性的循环一致性损失以及用于正则化的身份保持损失。为了稳定训练并提高生成质量采用最小二乘 GAN (LSGAN) 目标函数 [23]。设 P_A 和 P_B 分别表示由非配对数据集 Q_A 和 Q_B 导出的经验运动分布。因此在训练过程中会采样得到 q_A ∼ P_A 和 q_B ∼ P_B。对于每个采样的时间窗口判别器会针对每一帧的每一个关节输出评分。因此按元素element-wise计算 LSGAN 目标并对所有关节和帧的平方误差求平均值。实验设置为了评估 Human2Humanoid 在骨骼拓扑结构、尺度和自由度存在显著差异的情况下的表现在两个非配对unpaired运动域上对模型进行训练与评估。人类运动域构建自 Motion-X [24] 数据集该数据集提供了SMPL-X 格式的大规模全身 3D 运动标注涵盖广泛的运动语义和场景。机器人运动域则构建自 PHUMA物理基础人形机器人运动数据集[25] 中的 Unitree G1 子集。PHUMA 采用基于物理的滤波与优化技术以减少诸如足部滑动foot skating和穿模ground penetration等常见伪影从而提供一种更能反映机器人可执行运动的目标分布。预处理鉴于 Motion-X 和 PHUMA 在原始帧率和运动表示上存在差异采用统一的预处理流程。两个域中的运动序列均被重采样至 30 Hz。利用步长为 1 帧的滑动窗口将长序列分割为固定长度64 帧的时间片段这意味着相邻片段之间存在 63 帧的重叠。随后Motion-X 中的姿态参数被转换为关节旋转矩阵PHUMA 中的 G1 关节数据同样被转换为旋转矩阵形式并补充与根节点root相关的特征。关于根节点不使用绝对世界坐标系下的平移量而是利用帧间差分计算根节点的线速度作为输入从而实现对绝对位置的平移不变性。同时根节点的全局旋转矩阵被保留作为输入且在训练过程中不进行偏航角归一化即不去除朝向信息。训练集与测试集的划分在各自域内独立进行。训练过程中不涉及时间同步或语义对应严格遵循非配对学习的设定。基线方法针对 Unitree G1 机器人将本方法与几种具有代表性的运动重定向retargeting基线进行了对比其中包括两种基于优化的流程和一种工业级参考方案。(i) PHC retargeting [26] 是一种基于优化的 SMPL-到-人形机器人重定向流程常用于生成人形机器人可执行的参考运动。(ii) GMR [10] 是一种基于优化的重定向方法采用两阶段约束求解器及面向可行性的约束条件。 (iii) Unitree Retarget闭源参考数据是一套通过工业化流程为 G1 人形机器人生成的参考动作。它被用作高质量参考而非可学习的基准baseline。