1. 项目概述JALA框架的核心创新在机器人多模态学习领域视觉-语言-动作模型Vision-Language-Action Models, VLAs正成为实现通用机器人操作的关键技术路径。这类模型通过融合视觉感知、语言理解和动作生成能力使机器人能够根据自然语言指令完成复杂任务。然而当前VLA发展面临一个根本性矛盾模型性能高度依赖大规模高质量训练数据但机器人操作数据的采集成本极高且场景多样性严重受限。传统解决方案通常面临两难选择使用精确标注的实验室人类操作视频如MANO参数标注的桌面操作数据但数据规模有限且场景单一采用海量野外拍摄的日常操作视频如Ego4D数据集但缺乏可靠的动作标注直接学习效果差JALA框架通过联合对齐潜在动作Joint-Aligned Latent Actions的创新设计突破了这一困境。其核心思想是不直接重建完整的视觉动态而是学习一个能同时预测逆向动力学信号和真实动作的嵌入空间。这个潜在空间既保留了动作的语义信息又编码了视觉动态特征从而实现了以下突破异构数据统一利用可同时处理带精确标注的实验室数据和未标注的野外视频训练效率提升避免了对高难度视觉动态的完整建模专注于动作相关特征迁移性能增强学到的潜在动作空间可直接适配下游机器人任务提示JALA的关键创新点在于改变了传统VLA预训练中对动作表示的学习范式——从重建视觉动态推导动作转变为构建可预测的联合嵌入空间。这种转变使得模型能够更高效地从异构数据中提取有用的动作知识。2. 技术架构解析2.1 整体框架设计JALA基于Transformer架构构建其核心组件包括多模态编码器处理视觉输入视频帧和语言指令潜在动作感知器(LAP)从边界帧提取逆向动力学特征潜在状态感知器(LSP)将模型上下文映射到潜在动作空间预测性嵌入层连接语言-视觉理解和动作生成框架工作流程分为两个阶段预训练阶段在UniHand-Mix数据集上学习联合对齐的潜在动作空间微调阶段通过流匹配(Flow Matching)将潜在空间适配到具体机器人任务2.2 联合对齐机制JALA的核心创新在于其联合对齐策略具体实现包含三个关键技术2.2.1 掩码分块预测(MCP)受BERT的掩码语言模型启发JALA采用分块级掩码策略学习动作表示将动作序列划分为固定长度的分块(如15帧为一个分块)随机掩码分块内的部分token要求模型基于上下文预测被掩码内容使用双向注意力机制捕获分块内动作token间的关系这种设计带来两个优势增强模型对局部动作模式的理解保持生成过程的连贯性2.2.2 潜在动作对齐通过潜在动作感知器(LAP)提取的逆向动力学特征与MCP生成的预测性嵌入进行L1对齐L_align Σ||h_i - z_i||_1其中h_i是预测性嵌入z_i是LAP提取的潜在动作。这种对齐确保预测性嵌入包含动作动态信息潜在动作空间与模型上下文保持兼容2.2.3 非对称EMA更新为解决LAP和LSP输入异构性导致的训练不稳定问题JALA采用创新的权重更新策略LAP骨干网络梯度来自LSP确保特征空间兼容LSP查询向量梯度来自LAP保持动作语义通过EMA平滑权重传递θ_LAP^b ← αθ_LAP^b (1-α)θ_LSP^b θ_LSP^q ← αθ_LSP^q (1-α)θ_LAP^q这种设计既保持了训练稳定性又确保了两个感知器在共享潜在空间中的一致性。2.3 混合训练策略JALA采用两阶段训练方案应对异构数据预训练阶段对有标注数据同时应用MCP损失和对齐损失对无标注数据仅应用对齐损失总损失函数L 1_labeled · L_MCP λL_align微调阶段采用扩散Transformer(DiT)作为流匹配头将预训练的预测性嵌入作为条件输入目标函数L_FM E[||V_θ({h_i}, A_t^τ, q_t) - (ε-A_t)||^2]这种设计使得模型能够充分利用异构数据的互补优势实验室数据提供精确的动作监督野外数据提供丰富的场景多样性。3. UniHand-Mix数据集构建3.1 数据集设计理念UniHand-Mix的构建遵循三个原则质量与规模的平衡融合精确标注的实验室数据和多样化的野外视频多粒度监督包含动作生成、描述、延续等多种任务类型时空覆盖全面确保短时动作片段和长时行为序列都有充分代表3.2 实验室数据子集实验室子集通过标准化流程构建手部姿态标准化将所有数据统一为MANO参数格式对运动捕捉数据直接转换对3D关节数据通过优化拟合MANO参数对RGB视频使用HaWoR进行姿态估计后平滑处理分层任务标注视频级操作指令和摘要秒级接触状态、物体属性和手物交互指令数据生成基于模板生成多样化语言描述使用大语言模型(Gemini)进行语言增强最终包含500万样本覆盖1000小时视频涉及桌面操作、工具使用等多种场景。3.3 野外数据子集从Ego4D等数据源构建处理流程包括视觉过滤使用WiLoR检测手部区域去除无手画面活动验证用Gemini-2.5-Flash识别有效操作片段伪标注生成对部分高置信度片段估计MANO参数最终包含250万样本其中约10%有伪标注涵盖日常生活各种操作场景。3.4 数据集统计特性UniHand-Mix的关键统计特征任务类型分布动作生成42.5%纯视频29.1%动作延续15.5%动作描述12.9%视频长度分布1-5秒58%6-10秒32%11秒10%数据来源实验室数据67.1%(来自8个不同数据集)Ego4D野外数据32.9%这种组合确保了数据在质量、多样性和覆盖范围上的平衡。4. 实验验证与分析4.1 手部动作生成评估在实验室和野外测试集上的对比结果模型MPJPE(Lab)MPJPE(Wild)PA-MPJPE(Lab)PA-MPJPE(Wild)Being-H07.6116.911.343.81JALA-dino7.1611.020.911.12JALA-vjepa7.0511.540.941.32关键发现野外场景性能提升显著(MPJPE相对降低34.8%)姿态对齐误差(PA-MPJPE)改善明显说明学习的动作空间更具物理合理性不同视觉编码器(DINOv3 vs V-JEPA2)性能接近4.2 机器人操作迁移在LIBERO和RoboCasa基准上的成功率对比模型LIBERO(↑)RoboCasa(↑)真实世界(↑)GR00T-N1.568.2%59.7%52.3%JALA-dino73.5%64.2%58.1%JALA-vjepa74.1%65.0%57.8%优势体现仿真任务成功率平均提升5-6个百分点真实世界任务表现更优说明潜在动作空间具有更好的可迁移性在分布外任务上优势更明显(平均提升8.3%)4.3 消融实验验证各组件贡献度的结果配置MPJPE(Wild)训练稳定性完整JALA11.02稳定无对齐15.73稳定无潜在动作20.34不稳定无EMA更新13.87偶尔发散关键结论联合对齐机制对性能提升贡献最大EMA更新对训练稳定性至关重要潜在动作空间的质量直接影响最终性能5. 应用实践指南5.1 部署流程建议数据准备阶段收集目标领域视频数据对关键操作片段进行标注(至少100小时)与UniHand-Mix数据按1:3比例混合预训练调整保持骨干网络冻结仅微调LAP/LSP模块学习率设为初始预训练的1/10任务适配设计适合目标任务的流匹配头逐步解冻部分视觉编码器层采用课程学习策略从简单任务开始5.2 参数调优经验基于实际部署的经验总结批量大小128-256之间效果最佳学习率3e-5(预训练)1e-4(微调)掩码比例实验室数据用15-30%野外数据用5-10%EMA系数α0.99-0.9995.3 常见问题解决动作抖动问题增加L1对齐损失的权重在流匹配头中添加速度约束项对输出动作序列进行滑动平均跨领域适应差在潜在空间中添加领域对抗损失采用渐进式领域迁移策略增加目标领域的无监督数据长序列生成质量下降采用分层生成策略引入时序注意力机制添加动作连贯性约束6. 技术展望与延伸JALA框架为VLA预训练开辟了新路径未来可延伸方向包括多模态扩展融入触觉、力觉等模态增加跨模态对比学习目标开发多传感器融合架构终身学习机制设计增量式潜在空间更新算法开发基于记忆回放的数据选择策略实现在线自适应能力具身智能应用扩展到全身运动控制结合大语言模型进行任务规划开发自监督的探索学习机制在实际应用中我们发现JALA学到的潜在动作空间展现出良好的可解释性。通过可视化分析可以观察到相似动作在潜在空间中形成有意义的聚类结构这为后续的模型可解释性研究提供了有趣的方向。