ResWM:用于视觉强化学习的残差-动作世界模型
26年3月来自UCSD和TAMU的论文“ResWM: Residual-Action World Model for Visual RL”。从原始视觉观测中学习预测性世界模型是强化学习RL的核心挑战尤其是在机器人和连续控制领域。传统的基于模型的强化学习框架直接将未来预测与绝对动作挂钩这使得优化不稳定最优动作分布依赖于任务事先未知并且常常导致振荡或低效的控制。为了解决这个问题引入残差-动作世界模型ResWM这是一个将控制变量从绝对动作重新表述为残差动作相对于前一步的增量调整的新框架。这种设计符合现实世界控制的固有平滑性缩小有效搜索空间并稳定长时域规划。为了进一步增强表示提出一种观测差分编码器它显式地对相邻帧之间的变化进行建模从而产生与残差动作自然耦合的紧凑潜动力学。ResWM 以最小的修改和无需额外超参的方式集成到 Dreamer 风格的潜动力学模型中。想象展开和策略优化均在残差动作空间中进行从而实现更平滑的探索、更低的控制方差和更可靠的规划。在DeepMind控制套件上的实证结果表明ResWM在样本效率、渐近收益和控制平滑度方面均取得持续的提升显著优于Dreamer和TD-MPC等强大的基线模型。除了性能提升之外ResWM还能生成更稳定、更节能的动作轨迹这对于部署在真实环境中的机器人系统至关重要。这些发现表明残差动作建模为将强化学习算法的进步与机器人技术的实际需求相结合提供了一个简单而强大的原理。从高维视觉观测中学习世界模型是强化学习RL的核心挑战之一[1-9]它需要协同协调表征学习、动力学预测和策略优化[10-16]。与基于状态的范式低维输入能够透明地揭示底层系统动力学不同视觉强化学习面临着多方面的复杂性尤其是在机器人领域智体需要在不断变化的环境中执行长时程任务[17-19]。尽管诸如SAC[20]和PPO[21]等无模型方法取得令人瞩目的成就但它们固有的样本效率低下严重限制它们在现实世界场景中的可行性因为在现实世界中数据采集成本高昂、资源有限或充满风险。基于模型的强化学习MBRL[17, 22]作为一种很有前景的解决方案应运而生它通过构建内部世界模型利用富有想象力的模拟来促进高效的规划和策略优化[23, 24]。然而传统的将动作嵌入这些模型的方式已成为一个关键瓶颈阻碍基于模型强化学习MBRL潜力的充分发挥。主流的世界模型直接将潜动力学性建立在绝对动作之上这种看似直观的选择实际上却引入了次优的归纳偏差并产生了深远的影响[25-29]。首先这种设置将策略学习视为一个高方差难题而最优绝对动作的任务特定非平稳分布更使问题雪上加霜。此外它还经常导致振荡或不稳定的控制轨迹从而削弱规划的有效性并在物理实现中引入安全隐患。这些缺陷凸显世界模型的算法框架与具身智体实现平滑、弹性控制的必要性之间存在着深刻的脱节。本文倡导这样一种观点连续控制固有的平滑性超越单纯的期望演变为一个亟待利用的基础原则。其洞见围绕着连续动作之间的残差变化展开——这一量比其绝对值更易于预测和处理。基于此提出残差-动作世界模型ResWM它将控制变量从绝对动作重新定义为残差动作。这种重新定义在动作空间中嵌入一个稳健的时间平滑先验通过对增量式改进而非直接指令进行建模从根本上降低学习的复杂性。如此一来ResWM 与物理动力学的连续性相协调为扩展视野规划提供坚实的基础并促进本质上稳定且节能的控制信号产生。为了将控制信号锚定在最显著的感知信息之上用一种观测差分编码器ODL来补充残差动作范式。与独立编码静态帧的传统方法不同ODL 精心提炼相邻观测值之间的差异从而提取其中蕴含的动力学信息 [30–34]。这产生一个紧凑的、动态感知的潜表示该表示与残余动作的预测无缝衔接有效地过滤掉静态冗余信息突出对智体自适应调整至关重要的时间变化。通过优先考虑这些差异性线索ODL 使模型能够更敏锐地关注动作引起的变化从而增强其因果推理能力。ResWM 经过精心设计可以轻松集成到现有的 Dreamer 式架构中只需进行极少的修改并且无需任何新的超参数。想象驱动的规划和策略优化完全在残余动作域内展开将探索转化为流畅的局部扰动而不是波动性大、方差高的探索。这种范式转变不仅增强学习稳定性和样本效率而且还产生明显更平滑、更节能的动作轨迹——这些都是机器人系统在现实世界环境中安全集成的不可或缺的属性。该方法论开创性地对潜变量世界模型中的动作和观察表征进行原则性的重构挑战传统的绝对且时间独立的动作建模范式。从物理系统和生物运动控制的固有连续性[56, 57]中汲取灵感提出一个基于两项突破性原则的全新框架(1) 将控制变量重新定义为残差动作从而嵌入一个鲁棒的时间平滑性先验进而将动作空间中混沌的全局搜索转化为优雅的局部优化(2) 将该控制信号与观察差异的显式编码相结合构建一个高度动态感知的潜空间从而捕捉环境演化的本质。这一创新性的综合最终形成残差-动作世界模型ResWM该框架不仅将理论上的优雅与实际的有效性相结合而且还在视觉强化学习RL中实现前所未有的稳定性和样本效率。预备知识潜动力学模型将视觉控制问题建模为部分可观测马尔可夫决策过程 (POMDP) [58]其形式化定义如下(O, A, P, R, γ)。在每个离散时间步 t智体接收一个高维视觉观测值 t ∈ O并执行一个动作 a_t ∈ A。随后环境根据转移动力学 P 转移到一个新的未观测真实状态智体获得一个标量奖励 r_t R(s_t, a_t)。智体的总体目标是学习一个策略 (_ | ≤ )以最大化预期折扣收益 E[sum(^^ _)]其中 ∈ [0,1) 是折扣因子。基于模型的强化学习智体通过从交互历史 D {(_, _, _)} [59, 60] 中学习生成世界模型来解决这个棘手的高维问题。该模型通常可以分解为几个关键组件• 表示模型编码器h_ : _ → _ 它将高维观测值映射到一个紧凑的马尔可夫潜状态空间。• 转移模型动力学_(_1 | _, _)它完全在潜空间中预测环境的前向演化。• 奖励预测器_(_ | _, _)它估计即时任务奖励以辅助离线规划或策略优化[61]。该范式的一个根本挑战在于如何选择动作_的表示。传统世界模型[36]假设时刻的最优动作分布与_−1无关这忽略动作分布的非平稳性以及执行的物理约束。这通常会导致高频动作抖动和优化不稳定——而提出的残差公式正是为了规避这些问题而设计的。残差动作策略作为平滑性先验核心假设是直接预测绝对动作 _ 对于连续控制任务而言本质上是一个不适定问题。最优物理轨迹很少由不相交的独立控制信号组成相反它们需要平滑、连续的过渡。为了无缝地整合这种归纳偏差引入一种重参数化技术该策略预测相对于先前动作 _ −1 的增量调整 _从而有效地将决策锚定在时间连续性上。最终向环境发出的动作是通过复合变换产生的_ tanh _−1 _ 其中 _ ∼_(· | _, _−1).这种简洁的公式为策略网络引入强大的时间平滑性先验。通过将控制输出限制为微分项将优化空间从全局动作空间 A 上的广泛、无约束搜索重新定向到以 _ −1 为中心的局部流形内观测差分编码器 (ODL)。传统的帧堆叠 [62] 隐式地对速度进行建模但通常会受到视觉混叠和高度冗余的影响。而 ODL 则通过显式地关注时间差分来重新定义表征学习。这基于这样一个洞见最优残差 _ 主要由连续观测之间的差异变化驱动而不是静态的视觉快照。通过一个复杂的映射 Φ_ODL 来形式化这一点_ Φ_ODL(_,_−1) LNFC((_)− (_−1)) ,其中 和 ′ 分别表示独立的或孪生卷积神经网络 (CNN) 编码器FC 表示全连接层LN 表示用于表征稳定性的层归一化 [63]。这种架构创新实现双重目标(1) 它作为一个精确的时间滤波器从静态的干扰背景中提取出动态的、与任务相关的元素例如移动的物体或摆动的钟摆从而减轻像素级冗余 (2) 它构建一个动力学-觉察的潜表征 _该表征本质上与残差动作 _ 相契合。通过将 ODL 与残差策略相结合在感知观察变化和控制通过变化采取行动之间建立一种共生关系从而提升模型在视觉复杂、非平稳环境中的预测能力。基于残差动作的潜动力学为了构建一个能够原生理解动作空间的世界模型将框架集成到循环状态空间模型 (RSSM) [64] 中。关键在于转移函数直接以残差动作 _ 为条件而不是以绝对动作为条件_1 ∼_(_1 | _, _),其中 _ 表示循环潜状态的确定性成分和随机性成分。完整的生成模型包含以下组件这些组件在残差-动作范式下协调一致• 转移模型_1 ∼_(_1 | _, _)• 观测模型_ ∼ _ (_ | _ )• 奖励模型_ ∼ _(_ | _, _)这种统一的结构保证用于策略学习的“想象”轨迹是使用由策略优化的完全相同控制变量生成的。这避免学习的动力学与策略的行为分布之间出现累积误差和分布偏移从而显著提高长期预测的准确性。想象力、策略优化和正则化ResWM 中的策略学习利用基于想象力的潜空间展开。从回放缓冲区采样得到的潜状态 s_t 出发Actor-Critic 算法利用冻结动力学模型模拟时域为 H 的轨迹sˆ_k1 ∼ _(· | sˆ_k, ˆ_k), ˆ_k ∼ _(· | ˆ_k, ˆ_k−1)随后优化策略 ˆ_ 和价值函数 ˆ_以最大化这些模拟路径上的预期 收益 [58]。这种无导数规划方法无需环境交互即可实现高效的信用分配。为了保留残差动作的优势在actor的目标函数中加入两个针对性的正则化机制。首先Kullback-Leibler (KL) 散度惩罚将预测的残差分布引导至均值为零的高斯先验分布 N(0, ^2^ )。这起到信息瓶颈的作用 [65]抑制过度且不稳定的偏差并鼓励进行简约的轨迹调整。其次可选的能量惩罚 L_Δ _Δ ||_||^2^_2 明确地限制控制力度使优化后的策略更适合资源受限的机器人应用因为在这些应用中激进的控制反而会造成不利影响。总训练目标整个框架——包括视觉编码器、世界模型和Actor- Critic网络——进行并行端到端训练。这种协同优化至关重要因为学习的潜表征质量直接决定用于策略改进的设想推广有效性。最小化一个综合联合目标函数 L_total该函数基于从情景回放缓冲区 D 中动态采样的序列批次进行评估L_total E_ ∼D [L_model () _actor L_actor () _value L_critic() L_reg ()]在此公式中L_model 包含标准的变分自编码器 (VAE) 证据下界 (ELBO) [66]。具体而言它包括图像重建损失以确保视觉保真度奖励预测损失将潜空间与特定任务的效用联系起来以及用于潜动态的 KL 平衡损失。KL 平衡机制在世界模型中尤为重要它对先验网络和后验网络应用不同的缩放因子防止动态先验在训练初期坍塌成训练效果不佳的表示。此外L_actor 和 L_critic 代表从想象的展开 回报中导出的标准 actor-critic 损失。具体来说actor 通过在可微分动力学模型中解析地传播梯度来优化以最大化想象轨迹的期望值而 critic 则通过时间差分 (TD) 学习进行更新以准确预测这些长期的 回报。最后L_reg 整合上述关于残差动作的先验信息作为信息瓶颈它强制执行所需的时间平滑性并缓解灾难性的动作抖动。如图所示残差-动作世界模型ResWM的架构如下1观测差分编码器ODL处理连续帧 _ −1 和 _ 以提取动力学增量生成动力学-觉察潜向量 _。2残差策略actor网络基于 _ 和前一个动作 _ −1 预测残差更新 _以确保时间平滑性。3潜动力学循环状态空间模型RSSM根据这些残差动作展开未来潜状态 _ 1从而为actor-critic优化提供稳定、长时域的想象。为了全面评估所提出的残差-动作世界模型ResWM设计实证研究旨在回答三个主要研究问题RQ• (RQ1) 性能和样本效率与最先进的视觉强化学习基线相比残差动作和动态感知表示的融合是否能带来更高的样本效率和渐近性能• (RQ2) 动作平滑性和能量效率ResWM 能否显著降低高频动作抖动并生成更平滑、更节能的控制轨迹这对于实际物理部署至关重要。• (RQ3) 消融和组件分析各个组件——特别是观测差分编码器ODL和残差策略公式——对框架的整体鲁棒性和表示学习能力贡献有多大主要评估平台是 DeepMind 控制套件 (DMControl) [68]它提供一系列复杂的生物力学和机器人环境这些环境的特点是复杂的接触动力学、高维视觉输入和稀疏的奖励景观。此外为了评估 ODL 在减轻视觉干扰方面的具体作用在具有动态非静态背景的修改环境中进行补充实验。为了全面评估所提出的残差动作世界模型ResWM采用DeepMind Control SuiteDMControl[76]和Atari基准测试[77]前者代表连续控制任务后者则在视觉复杂性和稀疏奖励方面提供了多样化的挑战。值得注意的是ResWM只需进行少量架构修改无需引入任何额外的超参数即可无缝集成到现有的世界模型框架中从而确保了比较的公平性。在DMControl上首先评估六个常用任务并进一步纳入五个更具挑战性的任务以检验其鲁棒性。在 Atari 平台上评估涵盖十款经典游戏其中智体的目标是最大化游戏得分从而测试 ResWM 在处理高维像素输入和长时程任务方面的泛化能力[78]。