当机器人学会“记住”世界它们距离真正理解我们还有多远如果给你一段长达数小时的第一人称视频要求你从中理清所有物体和人的移动轨迹、他们之间的互动关系并在最后回答一系列复杂的空间和时序问题——你能做到吗对人类而言这已经是一项艰巨的挑战而对当前的AI系统来说这几乎是不可能完成的任务。原因在于这些系统缺乏一种关键能力——持久记忆。ICCV 2025上发表的《Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding》正是为解决这一核心瓶颈而来。这篇由北京通用人工智能研究院BIGAI、中国科学技术大学、清华大学和北京大学联合完成的研究提出了一种全新的LLM-based智能体LLM-based agent通过融合第一人称视频和深度、位姿等具身传感器数据构建持久场景记忆在动态3D场景理解任务上取得了令人瞩目的突破。它不仅入选了计算机视觉顶会ICCV 2025更被认为是为具身智能赋予了“记忆”的关键一步。接下来我将从问题动机、技术方案、实验表现、创新价值以及留给未来的思考五个维度为你全面解读这项工作。一、问题的起点为什么当前的AI看不懂“动态世界”在深入技术细节之前我们需要先理解一个核心困境现有的AI系统在理解动态3D场景时究竟卡在了哪里1.1 从“静态识别”到“动态理解”传统的计算机视觉模型擅长处理单张图片比如识别出“图片里有一把椅子”。但在真实环境中世界是动态的人会走动、物体会被移动、门会被打开和关闭、杯子可能会被拿起来又放下。对于需要与物理世界交互的具身AI——无论是家庭服务机器人、自动驾驶汽车还是虚拟助理——理解这种动态变化的能力至关重要。然而大多数现有方法将这个问题简化为“长视频理解”即把一段长时间的第一人称视频输入到多模态大模型中试图“一锅端”地理解所有内容。这种方式存在三个致命短板第一缺乏持久性。当视频时长达到数十分钟甚至数小时模型的记忆就像金鱼一样——看到后面就忘了前面。一个物体可能在第5分钟出现在第15分钟被移动在第30分钟再次出现但AI已经忘记了它最初的位置。第二空间信息缺失。纯视频输入本质上是2D投影无法准确还原物体在真实3D空间中的位置关系。一个物体“在桌子上”还是“在桌子前”仅靠2D画面难以精确判断。第三状态更新滞后。当场景中的物体状态发生变化——比如一扇门从关闭变成打开——现有的系统往往无法及时捕捉并更新记忆导致后续推理出现偏差。1.2 一个关键的技术抉择加入“具身传感器”区别于以往纯视觉的方案该研究的核心洞察在于具身AI的优势恰恰在于它拥有“身体”。一个机器人不仅能看到画面还能获得深度信息知道自己离物体有多远和位姿信息知道自己的头转向了哪个方向、移动到了什么位置。这些“具身传感器”的数据正是构建精确3D空间认知的关键输入。这一设计哲学在2025—2026年涌现的众多具身智能研究中得到了广泛呼应。例如同年发表的GSMem论文探索了使用3D高斯泼溅构建持久空间记忆2026年初提出的AtlasVA研究了VLM智能体的自进化技能记忆CoViMem则在终身具身场景理解中实现了3.7倍的记忆压缩和68%的推理时间缩减。这些同期研究共同指向一个趋势记忆机制正在成为具身智能的下一个核心战场而Embodied VideoAgent率先提出了多模态融合的持久记忆方案在时间线上占据了先行者优势。而Embodied VideoAgent正是在这一技术脉络的开端率先提出了一个将多模态融合与持久记忆机制相结合的完整方案。二、方法的奥秘Embodied VideoAgent如何构建“持久记忆”接下来我们来拆解这个系统的核心架构。用一句话概括Embodied VideoAgent用一个结构化的“对象记忆库”Persistent Object Memory来记录场景中的每一个物体并借助VLM在感知到物体状态变化时自动更新这个记忆库。2.1 记忆库长什么样这个持久对象记忆库记为mathcalMOmathcal{M}_OmathcalMO​并不是简单地把“看到的东西”记下来而是为每一个检测到的物体存储了一整套丰富的信息。具体来说每个对象的记录包含唯一标识符和类别比如“可乐罐_01”当前状态比如“打开的”、“在手中”、“在桌子上”与其他物体的空间关系比如“咖啡杯放在桌子上”、“面包旁边是黄油”3D边界框物体在三维空间中的位置和范围视觉特征OBJ Feat物体的外观信息用于识别匹配上下文特征CTX Feat物体周围环境的信息这种结构化的设计使得系统可以对物体进行精确且持久的追踪即使物体短暂被遮挡或移出视野系统也能在它重新出现时正确“认领”回来。可以说这个记忆库相当于给AI配备了一本不断更新的“场景速写本”每一笔都记录了物体在三维空间中的精确位置和当前状态。2.2 记忆如何建立与更新记忆的建立从开放词汇目标检测和实例分割开始系统扫描视频帧识别出场景中的物体并将它们逐一注册到记忆库中。但真正巧妙的是VLM驱动的记忆更新机制当系统感知到物体上发生了动作或活动时比如“手伸向杯子”、“门被推动”它会调用一个VLM来自动判断物体的状态是否发生了变化并据此更新记忆库中的相应条目。比如当机器人看到“一个人握住冰箱门把手并向内推”VLM就能推断出“冰箱状态从关闭变为打开”从而更新记忆库。这一机制看似简单实则解决了具身智能中的一个长期痛点物体状态变化的自动捕捉。没有这种机制机器人可能只知道“冰箱门被碰了一下”却无法理解“门现在开了”。如果用一个比喻来理解整个工作流程的话第一人称视频提供了丰富的视觉信息在厨房里观察到的一切深度传感器提供了距离线索冰箱门离机器人有多远位姿传感器提供了方向和位置信息冰箱门在机器人的左前方还是右前方三者融合之后VLM再像一个“认知秘书”一样判断哪些变化值得记录并更新到持久记忆库中。最终这个不断完善的记忆库支撑起了后续的复杂推理和规划任务。2.3 与基础框架的关系值得一提的是Embodied VideoAgent并非凭空创造而是在已有VideoAgent框架基础上的重要扩展。其核心创新在于引入了上述的持久对象记忆mathcalMOmathcal{M}_OmathcalMO​和VLM驱动的记忆更新模块使系统从“一次性”的视频理解升级为“持续性的”动态场景理解。在同期研究中类似的思想也有所体现——例如VILLA框架尝试通过时空对齐为具身模型引入几何-语义先验而Embodied VideoAgent则选择了更直接的“显式记忆结构”路线。三、实验的答卷这个系统到底有多强论文的理想要落地到实验中验证。Embodied VideoAgent在三个主流具身AI基准测试上进行了评估结果令人信服。3.1 三个基准三项提升论文选取的三个基准测试各有侧重覆盖了不同维度的动态场景理解能力Ego4D-VQ3D基于大规模第一人称视频数据集Ego4D的3D视觉问答任务测试系统在复杂3D环境中的理解能力。OpenEQA一个开放词汇的具身问答基准强调在未见场景中的泛化能力。EnvQA一个更具挑战性的环境问答数据集关注动态场景中的推理。在这些任务上Embodied VideoAgent取得了以下显著的性能提升不同来源的数据略有差异括号中为根据ICCV 2025正式版本的修正数据Ego4D-VQ3D最高提升6.5%部分来源报道4.9%~6.5%OpenEQA提升2.6%部分来源报道5.8%EnvQA提升15.3%部分来源报道11.7%在EnvQA上超过15%的绝对提升尤为亮眼——这个数据集本身就设计用于考察动态场景中的复杂推理能够取得如此幅度的改进充分证明了持久记忆机制在面对高频状态变化时的核心价值。具体来说EnvQA中的任务往往涉及多个连续的物体状态变化例如“杯子从桌子移动到水槽”、“冰箱门打开后又被关闭”没有持久记忆的系统很容易在这些时间跨度较大的状态变化中丢失信息而Embodied VideoAgent凭借mathcalMOmathcal{M}_OmathcalMO​的结构化记录和VLM的自动更新机制能够始终准确追踪每个对象的当前状态和历史变化轨迹这正是其大幅领先的关键所在。3.2 超越对比方法的领先优势在与现有的多模态大模型、端到端视频理解系统以及其他基于LLM的智能体对比时Embodied VideoAgent在大多数任务上均取得了最佳成绩。这表明单纯扩大模型规模或堆叠更多视频帧并不能解决核心的空间—时序推理问题而引入显式的持久记忆结构与传感器融合才是更有效的技术路径。3.3 超越评估从实验室到真实应用场景除了在标准基准上的测试论文还探索了Embodied VideoAgent在更广泛的具身AI任务中的潜力包括生成具身交互通过一个双Agent框架系统可以生成合成的用户—助手交互数据用于在模拟环境中训练基础模型。机器人操作感知系统能够为机器人操作任务提供精确的环境感知包括物体的当前位置、状态以及相关的操作约束。这些扩展应用表明Embodied VideoAgent不仅是一个优秀的“场景理解器”更有望成为一个服务于多种下游任务的“环境记忆基础设施”。四、创新的价值为什么这项工作意义深远4.1 重新定义“记忆”在具身智能中的角色长期以来记忆在AI系统中要么被简化为“上下文窗口”要么被降级为“向量检索”。Embodied VideoAgent的研究证明对于需要与动态世界交互的智能体来说结构化的、持久的、可自动更新的对象记忆是突破当前性能瓶颈的关键。这和人类认知的运作方式不谋而合——我们在一个环境中活动时大脑会自动维护一个关于周围物体位置和状态的“认知地图”而不是每时每刻重新感知一切。从更广阔的视角来看这一研究恰好呼应了2025—2026年间涌现的一批记忆导向的具身AI工作。2025年年底提出的VL-KnG尝试从第一视角视频构建持久时空知识图谱2026年初的AtlasVA聚焦于VLM智能体的自进化技能记忆同年5月的CoViMem则在终身学习场景中实现了高效记忆压缩。Embodied VideoAgent作为这一系列研究中的先行者率先验证了“显式持久记忆多模态融合”这一技术路线的可行性为后续工作奠定了基础方向。4.2 开辟了一条更具“工程可行性”的技术路线相比于依赖大规模多模态模型进行“端到端”学习的方案Embodied VideoAgent采用了一种更具模块化和可解释性的设计。它用LLM作为核心控制器用VLM作为特定的感知模块两者协同工作分别负责记忆管理和推理决策。这种架构在边缘设备上的部署潜力更大也更便于调试和升级——因为各个模块可以独立优化和替换。4.3 为构建下一代具身智能体提供了范式参考论文最后提到代码和演示将公开。这意味着Embodied VideoAgent不仅是一篇论文更是一个可以复现、扩展和借鉴的开源系统。对于想要构建具身智能体的研究人员和工程师来说这项工作提供了一个清晰、可操作的蓝图如何在真实的第一人称数据中构建持久场景记忆并将其用于复杂的推理与规划。五、未来的追问持久记忆之后路在何方当然没有任何一项研究是完美的。Embodied VideoAgent为动态场景理解开辟了新的可能性但也留下了若干值得未来探索的方向。5.1 记忆的“遗忘”与“压缩”目前的持久记忆是“累积性”的——物体一旦被检测到就会持续存储相关信息。但在真实的长时运行中比如一个家庭机器人连续工作数月记忆库会无限膨胀带来存储和推理效率的双重压力。如何设计智能的“遗忘机制”——比如当某个物体长期不出现时降低其记忆权重或者对长期稳定的信息进行压缩摘要——是一个值得深入研究的课题。在这一方向上同期发表的“From Verbatim to Gist”等研究已经开始探索金字塔式多模态记忆的蒸馏方法VLM Agent领域的“自进化记忆”和终身学习中的“协同可见性记忆网络”也为记忆压缩提供了不同的思路。5.2 从“对象记忆”到“关系记忆”目前记忆库的核心单位是“物体”。但在复杂的动态场景中物体之间的关系有时比物体本身更重要比如“杯子放在桌子上” vs “杯子被手拿着”。未来的版本或许可以将“关系”也作为一种可记忆的实体捕捉更高层次的场景语义。5.3 实时性与交互闭环Embodied VideoAgent目前的工作模式主要是“离线”或“准在线”的——处理一整段视频后再进行推理。真正的具身智能体需要在实时流中一边感知、一边记忆、一边行动。如何将这种持久记忆机制压缩到毫秒级响应的实时系统中是一个极具工程挑战性的课题。这需要结合更高效的记忆索引结构和边缘计算架构也是一个非常值得探索的方向。5.4 从“理解”到“交互生成”论文已经展示了Embodied VideoAgent在生成合成交互数据方面的潜力。一个更宏大的目标是让持久记忆不仅用于“理解”场景也用于生成自然、合理的交互行为——比如当机器人记得“用户刚才把牛奶放进了冰箱”它就能主动问“需要我帮你取出牛奶吗”。这不仅仅是感知问题更涉及社会智能和情境推理是通往通用具身智能的关键一步。5.5 具身记忆的伦理与安全当机器人拥有了“持久记忆”——意味着它能记住用户的物品位置、生活习惯甚至行为模式——隐私和安全问题也随之浮现。如何确保记忆数据不被滥用用户是否有权“让机器人忘记”这些问题虽然超出了纯技术研究的范畴却是任何记忆增强型具身AI走向真实应用时必须面对的。写在最后Embodied VideoAgent在ICCV 2025上的亮相标志着具身智能正在从“感知时代”迈向“记忆时代”。它让我们看到当我们给AI配备结构化的、持久的、可更新的记忆时它在动态世界中的表现可以产生质的飞跃。这项研究的一个重要信息是具身AI的进步不仅依赖于更大的模型和更多的数据还依赖于更智能的架构设计。给AI装上“记忆”让它记住你厨房里每一个物品的位置、每一扇门的状态、每一次互动的结果——这或许正是让机器真正理解并融入我们生活的起点。