文章目录自动驾驶 VLA 技术解析视觉-语言-动作模型的架构与实践一、引言二、为什么需要 VLA2.1 三代范式演进2.2 VLA 相对 VLM 的核心升级三、VLA 核心架构拆解3.1 三模块统一框架3.2 两大架构范式3.3 动作输出的三种形式四、代表性架构深度解析4.1 OpenDriveVLA慕尼黑工业大学2025.034.2 理想汽车 MindVLA量产落地4.3 前沿研究架构五、VLA 四次浪潮演进六、核心挑战与关键指标6.1 三大工程挑战6.2 主流 Benchmark 评测七、总结自动驾驶 VLA 技术解析视觉-语言-动作模型的架构与实践一、引言亲爱的朋友们创作不容易若对您有帮助的话请点赞收藏加关注哦您的关注是我持续创作的动力谢谢大家有问题请私信或联系邮箱jasonai.fngmail.com2025 年是自动驾驶 VLAVision-Language-Action技术从学术研究走向量产落地的关键年。VLA 模型的核心思路是将视觉感知、语言推理、驾驶动作统一进同一个端到端框架彻底解决传统模块化流水线和早期端到端模型都无法回避的两个痛点长尾场景泛化与复杂语义推理。VLA 最初由 DeepMind 于 2023 年在机器人领域提出汽车行业随即跟进。麦吉尔大学、清华大学与小米联合发布了首个自动驾驶 VLA 综述2025.06理想汽车 MindVLA 量产落地慕尼黑工业大学推出 OpenDriveVLA……这些信号共同指向VLA 正成为 L3/L4 自动驾驶的下一个核心范式。二、为什么需要 VLA2.1 三代范式演进范式代表方案核心局限模块化流水线传统感知-预测-规划-控制模块间误差级联接口脆弱长尾场景易崩端到端E2ETesla FSD V12、UniAD黑箱特性缺乏语义推理无法理解语言指令VLA 统一框架MindVLA、OpenDriveVLA推理成本高大规模标注数据稀缺当前挑战2.2 VLA 相对 VLM 的核心升级VLM视觉语言模型只能看和说缺乏输出连续控制动作的能力。VLA 在 VLM 基础上增加了动作解码器用驾驶轨迹数据进一步训练实现了从理解世界到驾驶车辆的关键跨越。能力维度传统 E2EVLMVLA视觉感知✓✓✓语义理解✗✓✓复杂场景推理有限✓✓语言指令响应✗✓仅文本✓驾驶轨迹生成✓✗✓行为可解释性✗部分✓文本输出决策理由三、VLA 核心架构拆解3.1 三模块统一框架所有主流 VLA4AD 架构均遵循同一基础结构视觉编码器 → 语言处理器 → 动作解码器三者共享统一语义空间。模块职责代表技术选型视觉编码器将相机/LiDAR/雷达原始数据转化为潜在表征DINOv2、CLIP、BEV 投影、点云编码器语言处理器理解驾驶指令和场景语义进行链式推理LLaMA 2、Qwen 2.5、GPT 系列LoRA 微调动作解码器将语言模型输出转换为可执行驾驶轨迹自回归 Token、扩散模型头、GRU 动力学适配器3.2 两大架构范式架构范式代表工作机制适用场景端到端 VLAOpenDriveVLA、SAMoE-VLA感知-推理-规划一体化单模型全覆盖学术前沿追求极致泛化双系统 VLA理想 DriveVLM / MindVLAVLM慢系统负责推理E2E快系统负责执行工业量产安全与性能平衡双系统设计借鉴了人类驾驶的认知模式System 1快速反应处理日常行驶System 2慢速推理介入复杂场景二者分工协作。3.3 动作输出的三种形式输出形式技术实现优势局限自回归 TokenLLM 逐 Token 生成轨迹坐标与 LLM 自然统一推理延迟高扩散模型头条件扩散过程生成轨迹分布多模态输出覆盖不确定性计算密集GRU 动力学适配器GRU 自行车动力学约束物理合规推理轻量需先验动力学知识四、代表性架构深度解析4.1 OpenDriveVLA慕尼黑工业大学2025.03OpenDriveVLA 是学术界最具代表性的端到端 VLA 架构以开源预训练 VLM 为基础融合 2D 和 3D 结构化视觉特征。三类特征 Token 设计Token 类型信息来源编码内容Scene Token多视角摄像头全局 2D 环境上下文Agent Token3D 目标检测结果周边交通参与者位置、速度、意图Map Token高精地图车道拓扑、道路边界、可行驶区域三类 Token 经分层视觉-语言对齐投影至统一语义空间后驱动 Qwen 2.5-Instruct 进行自回归轨迹生成。对比实验表明在窄路超车、复杂路口等场景中OpenDriveVLA 轨迹平滑性显著优于 UniAD后者存在对障碍物反应过激的问题。4.2 理想汽车 MindVLA量产落地MindVLA 是目前工业界最成熟的 VLA 量产方案其三层架构设计如下层级组件功能V视觉空间智能3D Tokenizer 环视摄像头全向空间感知将物理世界体素化L语言语义智能MindGPT自研 LLM融合空间标记与语义信息进行场景推理A动作执行智能集合动作生成器 扩散模型轨迹头输出未来 10–30 秒驾驶轨迹 决策文本解释MindVLA 的工业化差异点维度OpenDriveVLA理想 MindVLA语言模型Qwen 2.5开源微调MindGPT从零全量训练专家系统单一模型MoE 混合专家系统轨迹生成自回归 Token扩散模型覆盖不确定性分布落地状态学术开源量产车型搭载4.3 前沿研究架构架构机构/来源核心创新SAMoE-VLA2025基于 BEV 特征的场景自适应专家选择引入条件跨模态因果注意力DynVLA2025动力学链式思维Dynamics CoT先预测世界动力学再生成动作LinkVLA2025语言-动作 Token 统一离散码本粗到细两阶段生成推理时间降低 86%VLA-MPPMC 2025BEV 多模态感知 GRU 自行车动力学约束物理合规轨迹生成五、VLA 四次浪潮演进根据麦吉尔/清华/小米联合综述2025.06VLA4AD 经历了四次演进浪潮浪潮代表工作核心特征Pre-VLA ExplainersCLIP4AD、BDD-X用语言解释驾驶行为无动作输出Modular VLA4ADDriveGPT4、DriveLMVLM 作为规划模块的上层决策器保留模块化结构End-to-End VLA4ADOpenDriveVLA、MindVLAVLA 直接输出轨迹感知-推理-执行完全统一Reasoning-Augmented VLA4ADDynVLA、CoT-Drive链式思维CoT增强先推理后行动六、核心挑战与关键指标6.1 三大工程挑战挑战具体问题当前应对方向实时性底盘电控执行需 100HzLLM 推理通常 10Hz轻量动作头GRU/扩散 双系统分离数据稀缺带语言标注的驾驶数据集规模不足CoVLAWACV 2025等多模态数据集构建可验证性VLA 决策难以形式化验证监管合规挑战显式文本解释输出 注意力可视化6.2 主流 Benchmark 评测基准测试重点VLA 代表成绩nuScenes城市场景 3D 检测与轨迹规划SAMoE-VLA SOTALangAuto语言指令跟随驾驶SAMoE-VLA SOTACARLA仿真环境闭环驾驶DynVLA 优于 E2E 基线七、总结维度传统 E2EVLA架构范式黑箱神经网络感知-语言-动作统一闭环长尾场景易失效语言推理能力弥补数据稀缺可解释性几乎无实时输出文字决策理由泛化能力依赖数据覆盖借助 LLM 常识知识迁移工程成本低高LLM 推理 训练开销产业成熟度高Tesla FSD 量产快速成熟理想 MindVLA 已落地VLA 并非要取代端到端而是为端到端插上语义推理的翅膀。当 LLM 理解施工绕行、应急车道让行等复杂语义当扩散模型输出带不确定性分布的轨迹当文本解释让事故溯源成为可能——自动驾驶才真正具备了迈向 L4 的系统性能力基础。参考资料Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future — arXiv:2512.16760A Survey on VLA Models for Autonomous Driving — ICCV 2025 Workshop详解 OpenDriveVLA 端到端自动驾驶大模型兼谈理想 MindVLA — 知乎全球首个自动驾驶 VLA 综述重磅发布 — 知乎自动驾驶三大技术路线端到端、VLA、世界模型 — CSDNVLA-MP Framework — PMC/MDPI 2025ICCV 自动驾驶新范式统一世界模型 VLA — 量子位