北大联手中科院:给机器人装上“空间记忆“,让它不再靠蒙猜方向
这项由北京大学计算机学院、中国科学院自动化研究所以及AI2 Robotics联合完成的研究以预印本形式发布于2026年6月论文编号为arXiv:2606.17480题为《GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning》。一个机器人要想完成帮我把红色杯子拿过来这样一个对人类而言轻而易举的任务背后需要解决的问题其实相当复杂。它得先看懂眼前的场景搞清楚红色杯子在哪儿、长什么形状、从哪个角度下手才能抓稳还要回忆起上一次做类似任务时犯的错误以免重蹈覆辙。研究团队把这个挑战提炼成了两个核心难题并分别给出了新颖的解决方案最终形成了一套名为GeneralVLA-2的机器人规划系统。一、机器人为什么总是看走眼要理解这项研究的出发点可以从一个生活场景切入。假设你被蒙住双眼只允许用一根手指触碰一个陌生物体的某一面然后要求你描述它的完整形状。你大概率会犯错——因为信息太少你只能靠猜测填补那些没摸到的部分。现有的机器人视觉系统面临的处境与此类似。当机器人只从单张照片来理解一个物体的三维形状时它必须对物体的背面、侧面、底部进行脑补而这种脑补往往会产生错误导致抓取角度偏差、碰撞判断失误等连锁问题。研究人员把这种现象称为单目位姿模糊性和幻觉背面结构——听起来像是人类的过度想象但在机器人身上却会造成实实在在的操作失败。研究团队的前作GeneralVLA已经在这条路上走了一段它使用了名为SAM的图像分割工具来识别物体区域再通过深度相机将二维图像转换成三维坐标让规划模块能够推理空间位置。但单张图像的局限性始终是个绊脚石。GeneralVLA-2的思路是当机器人能够从多个角度同时观察同一个物体时就不需要再靠猜测填补空白了——多个视角的信息可以相互印证从而构建出更可靠的三维模型。二、从多个角度认识一个物体GeoFuse-MV3D的工作原理研究团队设计的这套多视角重建方案叫做GeoFuse-MV3D它建立在一个叫MV-SAM3D的已有框架之上但做了一系列关键改进。用一个直观的类比来理解如果MV-SAM3D是让多位同学分别从不同角度素描一个苹果然后拼合成立体模型那GeoFuse-MV3D则是在拼合之前先用一把几何标尺来检验每幅素描的可靠程度再用蒙版验证来确认每幅图里画的确实是同一个苹果最后只融合形状信息不触碰颜色和光泽以免把原本准确的外观搞乱。具体来说系统同时输入五个角度的彩色图像、每张图对应的物体蒙版也就是标出物体在哪里的遮罩以及相机的位置和朝向信息。在这些输入的基础上GeoFuse-MV3D引入了两条并行的几何修正路径。第一条路径称为几何先验主提供者它引入了一个外部的几何估计工具研究中使用的是VGGT一种能从图像中快速提取三维几何信息的模型但并不直接信任它的输出而是把它当作一个参考意见。参考意见需要经过蒙版一致性验证系统把三维点云投影回每张输入图像检查它落在物体蒙版范围内的比例。如果某个三维点在多数视角下都落在蒙版外说明它可能是错误估计出来的幻影点。面对这些可疑点GeoFuse-MV3D不会简单粗暴地删除它们——删除可能造成物体缺失、形状凹陷等更严重的问题。相反它采用了一种软收缩策略让可疑点向物体中心方向轻轻靠拢一点点力度取决于可信度的高低而且设有最大收缩比例的上限确保不会过度变形。这就像雕塑家修正一个稍微多余的凸起时不是切掉它而是轻轻往里推一推。第二条路径称为无先验轴补偿它完全不依赖外部几何工具只使用输入图像的蒙版、相机位置和已有的初始三维模型。它沿物体的三个坐标轴方向分别做微小的缩放和平移让三维模型在各个输入视角的投影结果与蒙版更加吻合。由于它只动形状不动外观对初始模型的干扰极小和第一条路径形成了很好的互补。两条路径分别生成修正后的三维点位置后系统进行最终融合。融合规则非常保守只混合几何坐标即点的空间位置完全保留原始的颜色、透明度、旋转、缩放以及球谐函数外观属性。混合权重还会根据两条路径各自的蒙版支持度动态调整支持度越高的来源在最终结果中的权重越大。这套流程的整体哲学是保守优先——宁可少改动也不要因为激进修正引入新的错误毕竟机器人规划对形状误差非常敏感一点点偏差就可能导致抓取失败或碰撞。三、实验结果形状重建的四项指标全面提升研究团队在一个名为GSO-30的标准测试集上验证了GeoFuse-MV3D的效果。这个测试集来自谷歌扫描物体数据集包含30个真实家居物品的高精度三维模型评估协议与MV-SAM3D完全一致输入相同的五个视角评估其余视角下的渲染质量。衡量指标共有四个可以用拍照的比喻来理解。倒角距离CD衡量重建出的三维形状与真实形状之间的点云距离数值越小说明形状越准确峰值信噪比PSNR衡量渲染图像与真实照片的亮度差异数值越高越好结构相似性SSIM衡量图像在结构、亮度、对比度上的综合相似程度越接近1越好感知图像质量LPIPS模拟人眼对图像质量的感受数值越小说明看起来越真实。对比基准方法MV-SAM3DGeoFuse-MV3D在这四项指标上全部取得了进步CD下降了2.20%LPIPS下降了2.02%PSNR上升了2.36%SSIM上升了1.03%。绝对数值方面CD从45.8876降至44.8770PSNR从13.2421升至13.5547SSIM从0.8051升至0.8134LPIPS从0.2795降至0.2739。研究团队还做了拆解实验分别测试仅用第一条路径、第一条路径加软视觉壳、仅用第二条路径、两条路径融合这四种配置的效果。结果显示第一条路径对CD改善最显著第二条路径对外观指标PSNR、SSIM、LPIPS改善最明显而两条路径融合后则在保持CD优势的同时外观指标也达到了最佳值。这说明两条路径确实是互补关系缺一不可。四、机器人的长期记忆为什么容易出问题解决了几何感知的问题之后研究团队转向了第二个挑战让机器人从过去的经验中学习。这个问题的重要性不亚于几何重建因为机器人在真实环境中工作时不可能每次都从零开始思考。原有系统的知识库KnowledgeBank采用了一种相对简单的做法把每次任务结束后总结出的经验以自然语言片段的形式存下来下次遇到类似任务时通过文字相似度检索最相关的几条经验作为规划参考。这个设计的问题在于文字相似并不等于实际有用。一条来自失败案例的经验如果被错误地当作成功策略来参考反而会把机器人带入歧途。一条针对特定物体尺寸总结出的经验用在尺寸完全不同的新物体上也可能南辕北辙。更麻烦的是随着时间推移知识库里会积累越来越多的内容其中难免有相互矛盾的条目没有机制来处理这些冲突。研究团队把这个问题比作一个没有管理员的图书馆书越来越多但没有人去核查哪些书是最新版、哪些书内容有错、哪些书该下架了。读者每次来借书只能按书名找完全不知道借来的是不是真正有用的那本。五、带质检员的知识库governed KnowledgeBank的设计针对上述问题研究团队对KnowledgeBank进行了全面升级核心思路是把每一条经验变成一个有身份证的结构化记录而不是一段无标注的文字。每条记录包含八个字段来源查询这条经验是在什么任务下产生的、可复用内容经验的具体描述、记忆类型是积极的操作提示、失败的规避约束还是工具使用说明、生命周期状态是刚加入的试用期、已验证的活跃、已归纳的摘要还是已过时的归档、置信度、质检分数、冲突链接记录与哪些其他条目有矛盾以及验证器的元数据。这套设计最关键的部分是验证器机制。每次任务结束后系统会用一个语言模型充当质检员从任务完成度、空间一致性、碰撞安全性、执行有效性、可泛化程度这五个维度对新产生的经验打分只有达到一定分数门槛的候选记录才会被正式收入知识库。对于软件代理任务质检标准则换成了根因分析、代码质量和实证验证。检索环节同样经过了精心设计。检索一条经验的得分不再仅仅取决于文字相似度还会综合考虑置信度、历史成功率、新近程度、使用频率同时对有冲突的记录和已过时的记录施加惩罚。这就像图书馆的推荐系统不仅看书名匹配度还要看这本书的评分、借阅次数、出版日期以及是否有后续修订版本。检索到的记录在送给规划模块之前会被渲染成结构化的上下文积极操作类的经验作为可选建议提供失败约束类的经验作为硬性限制而被标记为有冲突或已过时的条目则直接屏蔽不出现在规划上下文中。知识库还设有周期性的整理机制合并高度相似的条目、创建对一组成功经验的摘要记录、在预算超限时将低优先级条目归档。这保证了知识库的规模可控活跃记录始终是高质量的精华。六、代理基准测试记忆治理带来的实际收益研究团队在两个标准的长任务代理测试集上独立评估了新版KnowledgeBankTerminal-Bench 2.0测试代理在命令行环境下完成复杂任务的能力和SWE-Bench Verified测试代理解决真实GitHub软件工程问题的能力。选择这两个测试集的原因是它们能够在不依赖机器人物理环境的情况下单独验证记忆模块是否真的能提升长任务的成功率和效率。实验使用了四个大语言模型骨干分别进行测试Qwen-3.5-Flash、Qwen-3.5-Plus、Gemini-3-Flash和Gemini-3.1-Pro与之对比的基线分别是无记忆、AWM代理工作流记忆和ReasoningBank推理记忆库。每组实验运行五次取均值。结果来看KnowledgeBank在所有四个模型骨干上Terminal-Bench成功率平均比ReasoningBank高出4.53个百分点SWE-Bench解决率平均高出3.73个百分点同时平均步数AS步数越少说明效率越高在两个测试集上分别减少了4.95%和5.65%。以Gemini-3.1-Pro为例Terminal-Bench成功率从73.0%提升到75.7%SWE-Bench解决率从82.2%提升到85.3%平均步数分别从28.8降到27.3、从26.8降到25.4。拆解实验进一步确认了各个组件的贡献。去掉治理模块会导致Terminal-Bench成功率平均下降4.2个百分点SWE-Bench解决率下降4.4个百分点仅用语义检索不做质检和生命周期管理的版本下降幅度更大Terminal-Bench成功率平均低4.4个百分点SWE-Bench解决率平均低5.0个百分点。去掉失败处理模块的下降幅度相对小一些但也一致存在说明把失败经验转化为约束而非忽略它确实有实际价值。在部署开销方面KnowledgeBank因为需要运行验证器和治理调用会产生额外的token消耗但由于它能减少执行步数最终总token用量和延迟反而低于AWM和ReasoningBank。以Qwen-3.5-Flash为例KnowledgeBank的总token消耗为65.0k低于ReasoningBank的68.4k延迟也从115.4秒降到了108.9秒存储空间仅需3.6MB。七、机器人实战14项仿真任务和4项真实任务的检验在机器人规划层面研究团队将GeoFuse-MV3D和KnowledgeBank整合到完整的GeneralVLA-2系统中在RLBench仿真环境下测试了14种不同的操作任务涵盖积木摆放、玩接绳游戏、开瓶盖、关箱子、开箱子、拿杯子、推方块、拿雨伞、整理芥末、开酒瓶、开台灯、放刀具、拾起物体、插入积木等。对比方法包括CAP通过语言模型生成可执行代码的方法、VoxPoser通过三维体素价值图规划路径和Hamster使用视觉语言模型生成二维轨迹。为了让比较对GeneralVLA-2更不利研究团队给CAP提供了仿真环境的真实物体模型给VoxPoser提供了分割好的点云而GeneralVLA-2只使用RGB-D相机观测。GeneralVLA-2在全部14项任务上都能生成成功轨迹而Hamster只能完成10项、VoxPoser完成9项、CAP完成7项。在10项任务上GeneralVLA-2的成功率高于所有对比方法。去掉KnowledgeBank后成功率在所有任务上都有下降例如玩接绳游戏从85.33%降到63.33%开台灯从78.67%降到58.67%拿杯子从87.33%降到76.67%。真实机器人实验在搭载Intel RealSense L515深度相机的Agilex-2.0 Piper机械臂上进行测试了移动喷瓶、拉开抽屉、开瓶盖、整理蔬菜四个任务每个任务10次评估分三轮进行。GeneralVLA-2的成功率分别为63.33%、40.00%、53.33%、83.33%而CAP在这四个任务上的成功率为6.67%、0%、36.67%、70%RoboPoint则为0%、0%、20%、63.33%。在拉开抽屉这个任务上GeneralVLA-2能够估计抽屉的三维朝向并规划合理的拉力方向而依赖二维图像定位的RoboPoint完全无法完成。在移动喷瓶任务上KnowledgeBank帮助机器人学会了抓起物体后应该抬多高才能避免碰撞这是CAP那套手写基础动作库无法提供的细粒度知识。归根结底这项研究想解决的是机器人规划中看清楚和记得住这两个基础问题。GeoFuse-MV3D通过多视角几何融合让机器人不再需要对物体背面进行高风险的猜测upgraded KnowledgeBank通过质检、生命周期管理和精准检索让历史经验能够真正可靠地指导新任务而不是成为干扰。两者共同作用在规划模块的输入端不需要重新训练底层策略网络也不改变机器人的执行层接口这意味着这套方案可以较为方便地叠加到现有的机器人系统上。当然研究团队也坦承了若干局限。GeoFuse-MV3D依赖准确的相机标定和干净的物体蒙版如果标定出现偏差或者蒙版把背景也圈了进去软视觉壳的分数就会失去可信度。KnowledgeBank依赖验证器打出准确的分数如果验证器自身判断失误就可能让低质量经验混入活跃池或把有价值的经验错误拦截。现有的真实世界测试还局限于桌面短任务没有涉及长程移动操作、严重遮挡、柔性物体或人机协作恢复等场景这些都是后续值得深入探索的方向。对关注具身智能和机器人规划的读者而言这项工作提出了一个颇有启发性的问题在大模型能力飞速发展的当下让机器人变得更可靠是否不一定要靠堆砌更大的模型而是可以从输入信息的质量和记忆的治理方式这两个相对低调的方向入手这两个方向或许没有前者那么抢眼却可能在实际部署中起到四两拨千斤的效果。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.17480查阅完整论文。QAQ1GeoFuse-MV3D和普通多视角重建有什么区别A普通多视角重建直接融合多角度信息而GeoFuse-MV3D在融合前会用物体蒙版验证每个三维点的可信度对可疑点做软收缩而非删除并且只融合形状坐标、不触碰颜色和外观属性避免引入新的视觉误差。Q2KnowledgeBank的生命周期管理具体是怎么运作的A每条记忆记录会经历四个状态刚加入时是试用期通过质检后升为活跃多条相似成功经验会被归纳为摘要而过时或低优先级的记录则被转为归档。系统还会定期检测冲突条目并处理确保活跃池中的记忆始终是可靠的。Q3GeneralVLA-2在真实机器人上的效果和仿真里差距大吗A真实环境下成功率整体低于仿真例如拉开抽屉仿真中成功率超过50%真实环境中为40%这主要来自真实传感器噪声和物体位姿变化。但与对比方法相比GeneralVLA-2在真实环境中的优势依然明显CAP和RoboPoint在拉开抽屉任务上成功率均为0%。