VGA模型:基于几何感知的机器人操作新范式与零样本泛化实践
1. 从视觉到几何重新定义机器人操作的核心范式在机器人操作领域我们长久以来面临一个根本性的挑战如何让机器人像人一样仅仅通过“看”就能理解三维世界的结构并执行精确的物理动作传统的主流思路无论是依赖视觉语言模型VLM还是视频扩散模型本质上都是在语义或时序的流形上进行优化。它们的训练目标可能是预测下一个词或是生成下一帧合理的图像但这些目标与机器人末端执行器需要输出的、在SE(3)空间中的精确位姿存在着本质的“语义鸿沟”。你可以想象让一个精通描述“拿起杯子”的模型去计算机械臂关节需要转动多少度才能恰好捏住杯柄这中间隔着一道需要巨大“想象力”才能跨越的峡谷。VGA模型的出现正是为了填平这道鸿沟。它的核心思想极其清晰且有力将机器人操作重新定义为从视觉到几何的映射f(v)→G。这意味着我们不把视觉输入当作一堆需要识别的像素或需要理解的语义标签而是直接将其视为重建三维几何世界的线索。模型的核心任务是学习一个函数这个函数的输入是二维图像输出则是对场景三维结构深度、点云、相机位姿的精确估计并最终将这些几何理解映射为动作。这种“几何优先”的设计哲学让模型从诞生之初就与物理世界的度量空间对齐为后续的精确控制奠定了坚实的基础。我亲身经历过从VLM方案转向几何感知方案的开发过程其中的差异是颠覆性的。以前用VLM做抓取模型可能会因为训练数据中“红色积木”常出现在画面左侧而学会“当目标物体在画面左侧时伸出机械臂”。这本质上是记住了二维图像的统计模式一旦相机视角改变或者物体被移动到右侧模型就会失效。而一个基于几何的模型其内部表征编码的是物体相对于机器人基座的三维坐标无论从哪个角度看这个坐标关系在物理世界是恒定的。这正是VGA能够实现零样本跨视角泛化的底层逻辑——它学会的不是视角而是空间本身。2. VGA架构深度解析如何构建一个“几何感知”的操作大脑VGA的成功并非偶然它建立在一系列精心设计的组件和训练策略之上。理解这套架构就像拆解一个精密的仪器能让我们看清其强大泛化能力从何而来。2.1 骨干网络视觉几何接地TransformerVGGTVGA的“大脑”是一个名为VGGT的预训练3D世界模型。与常见的、用于图像分类或目标检测的视觉骨干网络不同VGGT从设计之初就被训练来从多视角图像中推理出完整的三维场景属性。你可以把它想象成一个拥有“立体视觉”和“空间想象力”的专家。VGGT接收一系列RGB图像作为输入其输出是一个丰富的几何属性集合包括每帧图像的相机参数旋转、平移、焦距、稠密深度图、视角不变的点位图以及用于点追踪的稠密特征图。关键在于它的交替注意力机制。这个机制是VGGT实现高效跨视图几何推理的核心。在Transformer的连续层中它交替执行两种注意力帧内局部注意力在某一层每个图像块token只与同一帧图像内的其他块进行交互。这就像你先仔细观察一张照片的每一个局部细节理解其内部结构。跨帧全局注意力在下一层所有帧的所有图像块都自由地相互关注。这就像你把多张从不同角度拍摄的同一场景的照片铺在桌上来回比对找出不同照片中同一个物理点的对应关系从而在脑海中构建出三维场景。这种交替进行的模式完美模拟了人类从多视图重建三维结构的认知过程先理解单视图的局部几何再通过视图间的对应关系进行全局整合。正是这种内置的、强大的三维推理先验知识为VGA提供了远超普通VLM的结构化空间理解能力。2.2 渐进式体素调制与动作预测头仅有强大的感知能力还不够我们需要将感知转化为动作。VGA通过一个渐进式体素调制模块和专用的动作预测头来实现这一点。感知骨干VGGT输出的是一系列富含几何信息的token。渐进式体素调制模块的作用是将这些抽象的token“投射”并“调制”到一个规范化的三维体素空间可以理解为将场景划分为一个个小立方体格子。这个过程是渐进的通过多层网络逐步细化三维表征确保几何信息被有效地组织起来并与后续的动作生成对齐。动作预测头则是一个独立的Transformer模块其结构与VGGT骨干保持一致同样是12层。它接收经过调制的三维场景表征并输出未来一段时间例如8个时间步的机器人动作序列。这里有一个巧妙的设计动作头可以复用骨干网络中间层的键值对缓存这极大地改善了信息流让几何感知能够更直接、更高效地指导动作生成减少了信息在传递过程中的损耗。2.3 高效训练策略LoRA微调与联合监督训练一个如此庞大的模型VGGT骨干本身就有近10亿参数如果采用全参数微调将需要海量的机器人演示数据和巨大的计算成本。VGA采用了LoRA这一参数高效微调技术。具体来说我们只对Transformer块中的线性层查询、键、值的投影层以及输出投影层注入低秩适配器进行更新。在VGA的最终配置中总参数量高达36亿但实际可训练的参数量仅为5.62亿这带来了两个巨大好处一是大幅降低了训练对数据量的需求二是有效防止了在有限机器人数据上对预训练3D知识的灾难性遗忘。另一个关键策略是联合训练。在仿真环境中我们不仅有动作标签演示者做了什么还能直接从仿真器后端获取真实的三维属性真值如精确的深度图。因此VGA在训练时同时接受两种监督信号动作监督让预测的动作尽可能接近专家演示的动作。3D属性监督让模型预测的深度、相机位姿等尽可能接近仿真器提供的真值。这种联合训练带来了质的飞跃。它迫使模型在学习“做什么”的同时也必须深入理解“为什么这么做”——即当前场景的三维几何结构为何导致了这样的动作。消融实验表明采用联合训练的模型其数据利用效率显著更高在训练早期就能更快地收敛到高性能。这好比在教一个学生开车时不仅告诉他“现在向左打方向盘”还同时告诉他“因为前方道路向左弯曲曲率半径为X米”。后者提供了更深层的原理性理解使得学生遇到从未见过的弯道时也能根据几何原理做出正确判断。3. 从仿真到现实VGA的零样本泛化能力实测理论再优美也需要在真实的机器人操作中接受检验。VGA的评估体系非常全面涵盖了从仿真基准测试到真实世界复杂任务的全链条验证。3.1 仿真环境下的全面能力评估我们主要在LIBERO这个大型机器人操作仿真基准上进行测试。LIBERO包含多个任务套件每个套件针对一种关键的泛化能力LIBERO-Spatial空间测试对物体间空间关系的理解例如“把黑色碗放在盘子和烤盘之间”。这要求模型具备精细的几何推理能力。LIBERO-Object物体测试对未见过的物体的泛化能力。训练时用番茄酱测试时换成果酱瓶模型必须依据物体的几何属性和功能进行泛化而非记忆外观。LIBERO-Goal目标测试对组合式任务指令的理解例如“打开顶层抽屉并把碗放进去”。这需要模型进行任务分解和步骤规划。LIBERO-Long长时程测试执行复杂多步任务的能力例如“把字母汤和奶油奶酪盒都放进篮子里”。这考验模型的长期规划能力和动作序列的稳定性。在这些测试中VGA全面超越了包括RT-2、OpenVLA、π0.5在内的主流视觉语言操作模型。特别是在需要强空间理解的LIBERO-Spatial任务上优势最为明显。这直接印证了其3D几何骨干的有效性——对于需要精确摆放、插入等操作的任务对深度的理解远比识别物体类别更重要。3.2 真实世界操作与跨视角零样本泛化仿真结果令人鼓舞但真正的试金石在真实世界。我们搭建了一个标准的机器人操作平台使用7自由度的Franka Panda机械臂配备一个平行夹爪。视觉系统包括一个固定的第三人称全局相机和一个安装在机械臂腕部的第一人称相机。我们设计了三个经典操作任务进行评估抓取立方体从桌面上抓取一个立方体。按下按钮将机械臂末端移动到按钮上方并按下。堆叠立方体将一个立方体拿起并精确堆叠在另一个立方体上。训练与测试的“视角鸿沟”这是实验设计最精妙也最严苛的部分。所有用于训练模型的80-100条人类演示数据全部是在一组固定的相机视角下收集的例如腕部相机和“相机-1”。而在评估时我们进行零样本测试将机器人部署到一个从未在训练中见过的全新相机配置下例如腕部相机和“相机-2”并要求它执行相同任务。这意味着模型在测试时看到的视觉输入分布与训练时完全不同。结果与启示实验结果令人印象深刻。如表3所示传统方法如ACT和OpenVLA在这种跨视角设置下性能暴跌平均成功率仅为7%和3%。这表明它们严重过拟合于训练视角下的视觉模式。而VGA取得了平均58%的成功率甚至超过了同样表现强劲的基线模型π0.552%。这6%的差距在机器人领域是显著的。这个结果强有力地证明了VGA的核心论点通过预训练的3D世界模型学习到的是对场景底层几何结构的理解而不是依赖于视角的2D外观模式。当视角改变时模型能够根据新的2D图像在其内部重建出与之前一致的3D场景表示从而生成出依然合理的动作。这才是真正意义上的空间泛化能力。3.3 基于语言的复杂操作验证为了进一步展示VGA在实用场景中的可靠性我们设计了一个更具挑战性的任务语言指代的抓取。我们在桌面上随机摆放黄瓜、胡萝卜和茄子这三种形状相似的蔬菜然后通过语言指令如“拿起胡萝卜”来指挥机器人。关键在于每次测试时物体的空间布局都会改变。VGA成功地在不同布局下 consistently 地识别并抓取了正确的目标。例如无论胡萝卜被放在左边、中间还是右边模型都能根据语言指令和三维场景理解准确定位到目标。这证明了其语言编码器基于Qwen-GTE能够将语义指令与几何感知进行稳健的对齐。模型并不是简单地寻找“橙色的柱状物”而是在三维空间中理解“胡萝卜”这个语义概念所对应的几何实体并规划抓取路径。4. 关键实现细节与避坑指南将论文中的模型成功复现并应用到实际机器人上中间有大量的工程细节决定了成败。这里分享一些从实验中获得的关键经验和常见陷阱。4.1 数据收集与处理的实战要点高质量的数据是成功的一半对于模仿学习尤其如此。演示数据的“干净”与“多样”平衡我们使用GELLO遥操作框架收集数据它提供了直观的关节映射控制。一个关键原则是只保留成功的轨迹。任何包含碰撞、任务失败的演示都必须坚决剔除因为它们会向模型注入噪声。但同时需要在初始机器臂位姿和物体摆放上引入足够的随机性确保模型学习的是任务本身而不是一条固定的运动路径。我们的经验是每个任务收集80-100条成功轨迹并在其中系统性地变化初始条件。真实世界深度信息的处理论文中提到在真实世界训练中我们没有使用深度图监督。尽管我们使用了RealSense D415这类RGB-D相机但实测中发现其深度测量存在噪声且与RGB图像的对齐校准非常繁琐容易引入误差。因此我们选择完全依赖VGGT预训练提供的强大3D先验仅使用动作标签进行监督。结果表明这已经足够实现优秀的泛化。这给了我们一个重要启示有时候一个强大的预训练先验比有噪声的真实传感器信号更可靠。4.2 模型训练的超参数与调优策略VGA的训练相对稳定但以下几个超参数需要特别关注学习率与批量大小我们使用4块A100 GPU设置总批量大小为32学习率为2e-4。这是一个比较稳健的起点。对于不同的机器人平台或任务集可能需要进行微调。一个实用的技巧是如果训练损失震荡剧烈首先尝试减小学习率而不是增加批量大小。LoRA秩的选择LoRA的秩决定了适配器的表达能力。我们进行了消融实验发现性能随着秩的增加而提升但在秩达到64左右后收益递减。因此选择秩64在模型性能和参数效率之间取得了很好的平衡。盲目增大秩只会增加训练成本对最终效果提升有限。动作块大小我们设置为8步即模型一次预测未来8个时间步的动作并在测试时以开环方式全部执行。这个值需要与机器人的控制频率和任务的时间尺度匹配。对于快速、短程的任务如按下按钮8步可能足够对于长程、慢速的任务如长距离搬运可能需要增加块大小或采用闭环重规划。4.3 真实世界部署的稳定性技巧将训练好的模型部署到真实机器人上是最后也是最惊心动魄的一环。状态估计与校准确保机器人自身的关节编码器读数准确并完成精确的手眼标定。任何位姿估计的偏差都会被模型放大导致动作失败。我们建立了每次实验前进行简易标定检查的流程。动作平滑与后处理模型输出的原始动作序列有时会在相邻步之间出现微小抖动。我们引入了一个轻量级的低通滤波器对最终发送给机器人的关节角度或末端位姿进行平滑这能显著提升动作的稳定性和成功率尤其是在接触式操作如堆叠中。安全监控与中断必须设置硬件的安全边界和软件层面的监控程序。一旦检测到关节扭矩异常、即将发生碰撞或动作严重偏离预期立即停止执行并回退到安全位置。零样本泛化虽强但无法保证100%不出错安全冗余至关重要。5. 与现有方案的对比分析与未来展望VGA的出现为机器人操作模型的设计提供了一个新的、强有力的范式。它与主流VLA方案的根本区别在于其优化的“目标流形”不同。传统的VLA模型如RT-2, OpenVLA在一个语义流形上优化。它们的训练目标是最大化文本或动作序列的似然概率。这个流形上的“距离”衡量的是概念或语法的相似性。将一个语义概念“抓取”映射到精确的SE(3)空间动作需要学习一个高度非线性的复杂映射这导致了优化困难、泛化能力弱特别是对几何变化敏感。而VGA得益于其VGGT骨干是在一个几何流形上优化的。这个流形本身就已经与三维欧几里得空间对齐其“距离”直接对应物理世界的度量如毫米、弧度。从这样的表征出发去预测机器人的动作相当于在一个已经结构化的、与任务空间同胚的空间中进行插值或回归其映射要平滑、简单得多。这从理论上解释了为何VGA具有更低的优化难度、更快的收敛速度以及更强的跨视角泛化能力。从性能指标上看VGA的优势是全方位的泛化性在跨视角零样本任务上大幅领先。数据效率联合训练策略使其能用更少的演示数据达到更高性能。推理速度约100毫秒的延迟10Hz频率满足大多数实时控制需求。参数效率通过LoRA微调仅训练5.62亿参数即可激活36亿参数模型的能力。当然VGA并非终点它为我们指明了方向也留下了开放问题。例如当前模型主要处理静态场景的抓取和放置对于非刚性物体变形、液体操作、以及需要复杂力控的交互如拧螺丝、插拔其几何表征是否依然足够未来一个可能的方向是引入物理引擎模拟作为额外的预训练或辅助训练信号让模型不仅理解几何还能预测简单的物理相互作用如摩擦、重力、形变。另一个方向是探索多模态几何融合除了视觉是否可以将触觉、听觉甚至力觉信息也映射到同一个几何/物理表征空间中构建一个更全面、更鲁棒的“世界模型”。从我个人的实践体会来看VGA所代表的“几何优先”路径其最大的价值在于提供了可解释性和可预测性。当一个任务失败时我们可以去检查模型预测的深度图是否准确估计的物体位姿是否有偏差这比调试一个黑箱的VLM输出要直观得多。这种可解释性对于在工业、医疗等高风险领域部署机器人系统至关重要。它不仅仅是一个性能更强的模型更是一个让我们向“机器如何理解物理世界”这一终极问题迈出坚实一步的框架。