前言如原论文所说当前主流的VLA范式是将一个预训练的VLM与一个单独训练的、基于流匹配(flow-matching)的动作专家进行耦合。这种做法使得 VLM 仅充当上下文编码器而非真正的决策者相对地星海图主张应将重心放在 VLM 主干上构建一个统一模型用一套权重在同一个自回归(auto regressive) token 序列中同时生成推理与动作因此他们提出 G0.5这是一种预训练的自回归 VLA其中单个Transformer 解码器在统一目标下同时输出推理 token 与动作 token三个组件使得在基础模型规模上实现这一点成为可能一个可学习的跨载体(cross-embodiment)动作分词器将异构机器人的动作映射到共享词表一个原生的“思维链”(chain-of-thought)流将任务分解、目标对象对齐(object grounding)和动作prompt 与动作 token 交错编码一个视觉记忆模块通过视觉编码器注入数秒级的历史信息由于推理与动作共享同一套权重预训练 VLM 的能力得以迁移到物理行为上模型能够严格遵循指令且仅通过提示(prompt)即可直接调节动作粒度、任务时域长度以及对分布外场景的处理而无需额外训练第一部分1.1 引言与相关工作1.1.1 引言如原论文所说早期的VLA 系统采用自回归接口将机器人控制表述为token生成先将连续动作离散化加入到语言词表中然后由 VLM 与文本token一同进行预测[1- Rt-2,2-Openvla详见一文通透OpenVLA——在Prismatic VLM(SigLIP、DinoV2、Llama 2)的架构上基于“下一个token预测技术”预测离散化动作]这种做法使得 VLM 本身充当执行器但可扩展性较差。随着控制频率、动作时域长度以及动作维度的增加每个时间步需要生成的自回归动作token数量会迅速增长从而导致高频控制既缓慢又昂贵这个瓶颈推动了该领域向“VLM 作为编码器”VLM-as-encoder的架构发展预训练 VLM 提供隐藏状态或 KV cache交由单独训练的 flow-matching 或 diffusion 专家来预测连续的动作块[3,4,5,6]该模式虽然提高了动作生成的效率但也改变了 VLM 的角色即在“VLM 作为编码器”的模型中VLM 不再是动作生成器它变成了视觉—语言条件编码器而最终的动作分布则由一个具有独立参数和独立目标函数的专家模块生成因此VLM 的核心生成能力——包括chain-of-thought 推理、in-context learning以及基于提示的运动引导——只能在经过压缩的条件瓶颈之后才对行为产生影响而无法作为动作生成过程的原生组成部分发挥作用[7,8,9]因此来自星海图的研究者回到自回归建模的形式且去除了其最初低效的根源过度的动作离散化(tokenization)基于学习的 VQ tokenizer将动作片段压缩为紧凑的离散编码而“主动自由度预测”则避免在不需要运动的机器人关节上浪费 token这些选择共同显著降低了解码负担同时保留了视觉语言模型作为生成角色的功能作为预训练主干网络的一部分作者还保留了一个轻量级的视觉记忆机制该机制按照最新的记忆增强型 VLA 设计 [10]通过视觉编码器注入累积的视觉上下文因为持续的视觉上下文有利于长时程控制和闭环重新规划更重要的是一旦推理与动作共享同一自回归序列思维链chain-of-thought就可以作为控制的原生组成部分进行训练模型可以在零样本条件下将一条指令分解为多个子任务识别与任务相关的物体及其边界框并将这些中间预测直接输入到后续的动作生成过程中————即任务拆解、场景对齐、子目标排序的CoT模板并训练模型在同一自回归序列中在动作 token 之前和动作 token 之间生成推理 token与CoT-VLA、DualCoT-VLA以及其他将推理模块附加在“VLM 作为编码器”骨干结构上的方法不同[7,8,9,12]G0.5的CoT token 与动作 token 共享同一个解码器、上下文和训练目标因此推理与动作不再是两个独立阶段而是同一生成过程中的两个耦合阶段参见图 1 中交错的 CoT 段与动作段比如下图两个子任务将右臂从桌面移开并用左手抓住毛巾、将毛巾放到水龙头下的水槽中G0.5 将具身推理与控制统一为单一的自回归序列在给定一条高层指令以及在系统提示中指定的目标具身形式后模型首先生成一段原生的“思维链”chain-of-thought——以由粗到细的顺序先产生子任务“把毛巾放进水槽……”随后生成边界框——然后在同一条序列流中继续输出动作tokens动作 tokens 按照“活动的运动部件” / / 进行组织且序列长度会随当前活动部件自适应变化无需填充在第 01 步中同时控制双臂 而在第 02 步中处于空闲状态的右侧控制对应的整组 tokens 则完全从序列中移除仅保留 相当于直接从流中移除闲置机械臂的token组而非进行填充动作以分块形式被输出与执行并在每次新的观测后以闭环方式重新规划1.1.2 相关工作首先对于VLA 架构从 VLM-作为编码器 到 VLM-作为执行体视觉-语言-动作模型在一个架构维度上存在分化即VLM是直接生成动作还是仅作为条件输入去驱动一个单独的动作模块主流路线是将一个预训练的 VLM 与一个动作专家模块耦合起来该专家模块消费 VLM 提取的特征并通过扩散diffusion或流匹配flow matching输出连续动作π0[3] 引入了一个单独参数化的专家其采用分块式因果注意力π0.5[4]、GR00T-N1/ N1.5 / N1.6 [5] 和 SmolVLA [6] 都遵循这一模板的变体在本第一条路线中VLM 是一个条件编码器其预训练的推理能力仅被间接使用自回归路线AR包括 RT-2 [1]、OpenVLA [2] 和 π0-FAST [11]则是将动作离散化并由 VLM 本身在下一 token 预测范式下直接预测这些动作在本第二条路线中它仍然是执行动作的智能体通常这两条路线被描述为一种权衡——连续头用于实现平滑的高频控制而自回归用于推理能力和实现简单性在“VLM 作为编码器”这一路线中一个具有启发性的线索是“防遗忘”问题当动作专家的梯度反向传播到 VLM 时VLM 预训练得到的感知与语言能力会退化 [17,18]主流的补救措施——知识隔离Knowledge Insulation[17]——会阻断这些梯度并重新引入自回归AR动作预测作为骨干网络的辅助表征学习目标——这在事实上承认AR 动作监督正是保护 VLM 能力的关键信号————详见本博客中的解读《π0.5的KI改进版(已部分开源)——知识隔离让VLM在不受动作专家负反馈的同时输出离散动作token并根据反馈做微调而非冻结VLM》最新的研究结果更进一步VLA-0 [18] 表明在未作修改的VLM 上直接以“动作即文本”的方式进行 AR 训练在没有进行大规模动作预训练的前提下就能在 LIBERO 上超越 π0.5-KI、OpenVLA-OFT 和 SmolVLA这为“AR 范式并非性能瓶颈”提供了直接证据作者团队严肃对待这一信号并在端到端框架中坚定采用 AR 路线仅将 flow-matching 头保留为一个可选的推理加速器而 VLA-0 仍然悬而未决的问题——也是本节其余部分所要梳理的——是如何将 AR 范式从单一、低频的具身形式和封闭词表任务扩展到更大规模途径是一个尊重形态结构的 tokenizer(第 2.2 节)以及一种将语言扎根到动作中的推理机制第 2.3 节其次对于动作Tokenization与跨载体通用性针对 VLA 的动作tokenization已经历了三代演进RT-2 [1] 和 OpenVLA [2] 这类逐维度、逐时间步分桶的方法在高频率的灵巧操作数据上表现不佳因为相邻时间步高度相关而分桶会浪费表示容量 [11]FAST 和 FAST [11] 用 DCT 加字节对编码byte-pair encoding替代分桶将这种相关性视为可压缩信号加以利用并且在一百万条轨迹上训练得到 FAST作为通用的动作分词器神经网络与向量量化变体——VQ-VLA [19]、BEAST [20] 以及更早的 VQ-BeT [21]——在需要联合训练和更复杂流水线的代价下进一步提升了重建质量跨形体泛化在很大程度上与这三者都是正交的主流VLA 在动作空间层面而不是在tokenizer 层面处理形态异质性π0 [3] 将所有机器人填充到一个18 维联合状态GR00T-N1 [5] 使用按形体划分的MLP 编码器和解码器而SpatialVLA [22] 通过自适应网格统一动作空间与G0.5工作最接近的是Being-H0.5 [23]它将异构的机器人控制映射到语义对齐的槽位中甚至将MANO 手部模型折叠进同一方案中Green-VLA [24] 通过将对应部位对齐到统一动作空间在机器人之间进行重定向以及HEX [25]其与人形体对齐的状态表征在规范化的身体部件抽象上运行————这三者都在动作向量层面操作作者的贡献是在tokenizer 本身中引入相同的结构对齐一个单一的冻结编解码器接收一个由5 个部分组成的固定维度布局并输出统一的27 维动作token 序列因此左右对称性在构造上得以保留并且添加一个新的形体在tokenizer 或动作头中都不需要新的参数最后对于VLA 中的推理与思维链(Chain-of-Thought)目前在向 VLA 注入推理能力方面已经出现了两大类方法Bolt-on CoT 将来自高层 VLM 的自然语言计划或二维路径路由到一个单独的低层控制器如 HAMSTER [26] 和 Fast-in-Slow 式的“System-2-feeds-System-1”设计 [5]在这种范式中推理是模块之间的接口而不是与动作共同生成的组成部分与此相对In-stream CoT 则在同一个自回归AR序列中、由同一个解码器同时生成推理与动作ECoT [27] 报告通过训练 OpenVLA 在执行动作之前预测计划、子任务、运动轨迹、目标框以及末端执行器位置使其性能获得了 28 个点的绝对提升CoT-VLA [7] 用自回归生成的子目标图像替代了文本推理Emma-X [28] 预测前瞻性的二维夹爪检查点而 π0.5 [4] 则在调用其 flow-matching 专家模型之前由 VLM 先发出高层子任务文本在G0.5的设定中就“推理与动作共享一个 AR 解码器”这一点而言与 ECoT 最为接近但在两个与作者主张密切相关的维度上有所不同其一作者在一个共享的 token 词表中结合了三种推理原语——物体目标框、原子子任务文本以及二维末端执行器轨迹其中最后一种受到 TraceVLA [29] 的启发其二作者将这些原语暴露为“与prompt 条件相关的模板prompt-conditional templates”从而可以在推理时无需重新训练就切换不同的 CoT 模式1.2 G0.5 模型设计总之作者围绕此关键来设计模型感知、推理和行动应当在一个共享词元词表上的单一自回归过程中得到统一。这个承诺塑造了下面的每一个组件——动作表示、推理脚手架、视觉条件化以及训练目标此也将作者的设计(VLM 作为执行体)与“将 VLM 作为编码器”的架构区分开来在后者中动作的生成位于一个具有独立目标函数的单独模块中G0.5模型从Qwen3.5 2B [30] 初始化这是一个预训练的视觉-语言模型提供了强大的视觉编码器、共享的多模态token 词表以及自回归解码器在推理时给定来自K 个相机的一个短时间窗多视角RGB 观测一个具身标识符例如R1-Pro一个自然语言任务指令一个本体感受状态模型自回归地生成一个结构化输出最终形成一个离散动作码序列根据提示模板的不同生成过程可以选择性地以前链式思维(CoT)片段为前缀以用于锚定物体、分解子任务或勾画夹爪轨迹。这些动作码由作者的跨具身ActionCodec 解码为统一动作空间中的连续控制指令该动作空间在不同具身之间共享这个自回归VLM 是自包含的并在所有主要实验中作为默认策略不过注意了作者特意做了一个设计即在需要严格时延或连续噪声探索的部署场景中可选地使用一个在自回归主干上条件化的flow-matching 头进一步优化动作输出所有输入和输出都会根据图 2 所示的模板序列化为单一的 token 序列。该序列被划分为两个部分一个是“条件段”aconditioning segment——将图像、具身信息、任务和状态封装在用户端聊天 token 中并以EOC标识作为结束多视角 RGB、embodiment id、任务指令、本体感觉状态——以用户侧对话 token 形式表示另一个是“生成段”agenerative segment——将 CoT 轨迹和动作代码封装在助手端聊天 token 中其中标记了推理与动作输出之间的边界生成段由一个可选的思维链(chain-of-thought)片段组成该片段可以是四类自描述推理目标(Subtask:、BBox:、Trace:、ActionHint:)中任意子集随后接动作编码本身动作编码进一步展开为R 轮残差residualDoF 组标记每个标记之后跟随 8 个动作编码(见第 3.1 节)此外训练时采用标准的下一 token 交叉熵损失函数并且只在生成段上计算损失其中G 索引生成-片段token。关键在于这个单一的损失同时监督CoT 生成和动作生成在预训练中没有辅助回归目标或专家蒸馏对解码器而言CoT 轨迹和动作都” 只是token”它们来自同一个词表并由同一次前向传播生成1.2.1 异构动作数据的结构化分词(Tokenization)如原论文所说目前的一个关键挑战在于如何在一个结构化的 token 空间中表示来自多种具身形式的异质动作使得 VLM能够高效建模而现有方法存在两个主要局限缺乏结构化分解大多数方法在离散化之前将整个动作空间压平成单一向量进行处理[31,32,33,34]而不考虑具身拓扑结构或可控自由度DoFs这会产生语义纠缠的动作 token在不同具身之间的迁移能力较差此外token 数量会随着可控 DoFs 总数线性增长尽管在每一个时间步中通常只有一个很小的关节子集处于激活状态token 一致性较差离散动作空间通常在缺乏显式结构约束的情况下学习导致语义上相似的动作被映射到汉明距离(Hamming distances)较大的 token 序列上[34]作为 VLM 训练的监督信号这种不一致性会引入大量优化噪声并降低训练效率// 待更