CVPR 2026|SpaceDrive:让自动驾驶VLM真正具备三维空间意识
点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达3D视觉工坊很荣幸邀请到了慕尼黑工业大学计算机科学在读硕士张正濠为大家着重分享她们团队的工作SpaceDrive。如果您有相关内容需要分享欢迎文末联系我们。SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving论文:https://arxiv.org/abs/2512.10719主页:https://zhenghao2519.github.io/SpaceDrive_Page/代码:https://github.com/zhenghao2519/SpaceDrive直播信息时间2026年03月31日(周二)1900主题CVPR 2026SpaceDrive让自动驾驶VLM真正具备三维空间意识直播平台3D视觉工坊视频号点击按钮预约直播3D视觉工坊哔哩哔哩也将同步直播主讲嘉宾张正濠慕尼黑工业大学计算机科学硕士在读慕尼黑工业大学计算机科学硕士在读。硕士阶段于梅赛德斯-奔驰进行研究实习参与基于 VLM 的端到端自动驾驶研究。研究方向为视觉语言模型(VLM/VLA)、多模态感知与自动驾驶轨迹规划。在曾于巴伐利亚州立软件密集型系统研究所(fortiss)和慕尼黑亥姆霍兹研究中心(Helmholtz Munich)从事多模态融合与参数高效微调研究。个人主页https://zhenghao2519.github.io直播大纲基于VLM的端到端自动驾驶简介VLM 做自动驾驶的两大先天缺陷SpaceDrive 方法详解开环闭环实验结果框架通用性与位置编码有效性验证可视化展示参与方式注3D视觉工坊很荣幸邀请到了慕尼黑工业大学计算机科学在读硕士张正濠为大家着重分享她们团队的工作SpaceDrive。如果您有相关工作需要分享欢迎联系微信cv3d009请备注宣传工作则不予通过。SpaceDrive工作详解过去一年Vision-Language ModelVLM快速进入自动驾驶研究。它的优势很明显视觉理解强、语义泛化好、还能配合语言推理处理开放场景。但真正落到驾驶规划上一个更根本的问题会立刻暴露出来VLM 擅长理解“场景在说什么”却不天然擅长理解“物体准确在哪里、轨迹是否可行、下一步应该如何在三维世界里行动”。这正是 SpaceDrive 想解决的问题。它的核心不是再堆一个更大的 planner也不是把更多驾驶数据翻译成自然语言而是把空间信息本身变成模型能够直接处理的统一接口。图1现有 VLM-based planner 往往把坐标当作数字 token 处理导致语义与空间之间的绑定很弱SpaceDrive 则把三维坐标编码为统一的空间表示同时作用于视觉、文本与输出接口。一、问题的根源VLM 会“读坐标”但不等于会“理解空间”现有很多 VLM-based 自动驾驶方法表面上已经能做场景描述、轨迹规划、反事实问答甚至还能给出带解释的文本答案但它们处理空间坐标的方式仍然是把(x,y,z)或 BEV waypoint 当成普通数字 token 序列去建模。这个做法有两个根本缺陷。第一数字 token 不等于空间表征。对语言模型而言3.82通常只是3 . 8 2这几个离散 token而不是一个与图像中具体目标显式对齐的位置实体。于是模型可能“看懂了这段数字”却并没有建立“这个数字对应图中哪个物体、位于什么方位、与 ego 有什么几何关系”的稳定映射。第二逐位生成数字不适合连续坐标预测。轨迹本质是连续几何量但 token generation 的本质是离散分类。它容易学到文本分布却不擅长高精度连续数值回归。这也是为什么不少 VLM planner 在文字解释层面很流畅但一到闭环驾驶里就会出现轨迹抖动、转向迟疑、碰撞或越界。二、SpaceDrive 的核心思想给 VLM 一个统一的三维空间接口SpaceDrive 的关键洞察可以概括成一句话不要让 VLM 去“猜坐标”而要让它直接在统一的空间表示上做推理。为此论文提出了统一的三维位置编码3D Positional Encoding, PE把来自视觉、文本和输出目标中的坐标都映射到同一个空间表征域中。这样模型内部不再是“语义 token 零散数字”而是“语义 token 可对齐、可计算的空间 token”。三、方法很简单但击中了问题本质1视觉侧把视觉 token 变成带三维位置的 tokenSpaceDrive 先用冻结的深度估计器从多视角图像预测绝对深度再将 patch 中心投影到三维空间得到每个视觉 patch 对应的 3D 坐标。随后用同一个 PE encoder 把坐标编码成空间向量并直接加到视觉 token 上。论文里的核心形式可以写成其中每个维度使用3D sine-cosine positional encoding然后把空间编码直接注入视觉 token这里的是一个可学习的归一化系数用来避免直接相加后破坏预训练 VLM 原有的 token 范数分布。这个设计的意义很直接模型看到的不再只是“车”“行人”“锥桶”这些语义 token而是位于具体三维位置上的目标。2文本侧把 prompt 里的坐标从数字 token 变成空间 token如果视觉侧已经使用统一 PE那么文本侧也必须一致否则模型内部仍然会出现“两套坐标语言”一套是视觉空间一套是文本数字。因此SpaceDrive 会在 tokenizer 后扫描文本中的坐标表达将其中的坐标值提取出来用同一个 PE encoder 转成空间 token并替换原始的数字 token 序列。论文把这个过程写为其中表示文本中某个坐标片段对应的位置集合。这一步非常关键因为它让模型在处理诸如“右前方(3.82,0.51)是什么”“沿这条轨迹走会不会碰撞”这类问题时面对的不再是一串字符而是与视觉侧完全同构的空间表示。换言之视觉空间、文本空间、历史 ego 空间终于进入了同一个表示域。3输出侧不再逐位生成数字而是直接回归坐标这是另一个很重要的改动。传统做法是让语言模型像写句子一样输出一串数字SpaceDrive 则引入一个特殊指示符⟨IND⟩当模型决定接下来要输出坐标时不再继续按文本 token 逐位生成而是把后续 hidden state 送入 PE decoder直接回归连续坐标若输出为⟨IND⟩则这相当于把问题从“生成长得像坐标的文本”改成“预测真正的连续几何量”。论文给出的总训练目标也很清晰其中语言部分仍然用标准语言建模损失坐标输出部分则采用回归损失论文默认的 MLP decoder 使用 Huber loss 做坐标回归。这一步的意义不在于“格式更漂亮”而在于建模范式变了从离散 token 分类切换成连续几何回归。图2统一 3D PE 同时作用于视觉 token、文本中的坐标输入和输出坐标解码构成完整闭环。四、为什么这件事有效从第一性原理看Transformer 本来就擅长建模 token 间关系。过去问题不在于它不会处理关系而在于输入给它的“坐标”本身并不是一个适合做关系建模的表示。SpaceDrive 通过统一的 3D PE 做了三件事第一把语义和几何显式绑定起来让注意力层可以直接利用“哪个 token 对应哪个空间位置”。第二把视觉、文本、历史状态、规划输出统一到一个空间接口避免每个任务各自发明一套专用 embedding。第三把轨迹生成从离散文本生成切换成连续坐标回归避免语言模型在数字处理上的天然弱项。所以它提升的不是某个局部模块而是整个 VLM planner 的空间建模方式。五、实验结果不是靠更重的 pipeline而是靠更正确的表示1nuScenes 开环SpaceDrive 达到现有 VLM-based 方法中的最优结果在 nuScenes 开环评测中SpaceDrive 取得了以下关键指标Avg. L2 0.32 mAvg. Collision 0.23%Avg. Intersection 1.27%如果看代码仓库里公开的基础模型结果SpaceDrive 在 LLaVA-1.5-7B 上达到0.31 / 0.23 / 1.42在 Qwen2.5-VL-7B 上达到0.32 / 0.23 / 1.27说明这套空间接口并不依赖单一 VLM 骨干。更值得注意的是论文明确指出该方法并没有引入许多现有 pipeline 里常见的 dense BEV feature这说明统一位置编码本身已经足以显著提升 VLM 的空间建模与规划精度。2Bench2Drive 闭环78.02 Driving Score55.11% Success Rate在更能体现真实驾驶能力的 Bench2Drive 闭环评测中SpaceDrive 取得Driving Score 78.02Success Rate 55.11%需要精确表述的是这个结果不是整个榜单第一也不是所有自动驾驶方法中的第二它更准确的含义是在论文对比的现有 VLM-based planner 中SpaceDrive 取得了很强的闭环性能并被论文与项目页表述为该方向上的第二梯队前列结果。这很重要因为它说明即便不靠极端复杂的系统堆叠仅通过更合理的空间接口设计也能把 VLM-based planner 的闭环能力明显往前推一步。图3上半部分为 nuScenes 开环结果表下半部分为 Bench2Drive 闭环结果表。六、这篇工作的真正价值不只是“提了一个新方法”我认为 SpaceDrive 最值得强调的不只是指标提升而是它对一个长期被忽视的问题给出了更准确的回答自动驾驶中的 VLM不是只要把驾驶任务写成自然语言它就会自然获得可靠的空间智能。驾驶最终发生在物理世界里系统必须稳定处理距离、方位、运动趋势、可行驶边界和交互约束。这些能力不能仅靠语言描述“顺带学会”。如果空间表示本身就是错位的那么再强的语义理解也难以转化为可靠轨迹。SpaceDrive 的贡献就在于它把“空间”从语言模型外部的一段文本说明变成了模型内部可被统一调用、统一对齐、统一回归的表示接口。这个改变看似简单但它实际上触及了 VLM-based autonomous driving 的核心瓶颈。七、局限这项工作并没有试图一次性解决 VLM 驾驶中的所有问题。论文明确指出目前方法仍然存在两个边界一是没有显式建模不确定性二是尚未系统利用多帧 temporal memory 机制。这意味着 SpaceDrive 主要解决的是“统一空间接口”问题而不是同时解决多模态未来、多解规划或长时序记忆问题。但这恰恰也是它扎实的地方它抓住了最基础、最共性的缺口并在这个层面给出了一个简单、清晰而有效的解决方案。八、总结如果把这篇工作压缩成一句话那么我会这样概括SpaceDrive 证明了对于 VLM-based 自动驾驶决定上限的关键不只是语义理解能力而是模型是否拥有一套统一、显式、可计算的三维空间接口。它不是在语言外面再包一层几何补丁而是让 VLM 真正在内部“接上空间”。这也是为什么我们相信这项工作不仅对自动驾驶有意义对更广义的 spatial-aware embodied intelligence 研究同样有参考价值。本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。