零阶优化:超越梯度下降的神经网络训练新范式
1. 从梯度到零阶神经网络优化的范式演进在深度学习的日常实践中我们早已习惯了反向传播Backpropagation和随机梯度下降SGD的组合拳。这套范式是如此高效和深入人心以至于它几乎成了“训练神经网络”的同义词。我们打开PyTorch或TensorFlow定义网络结构计算损失然后调用一句简单的loss.backward()和optimizer.step()模型参数便朝着损失更低的方向悄然更新。这背后的核心逻辑清晰而优雅通过链式法则将最终输出的误差信号精确地、逐层地分配回每一个权重和偏置指导其进行微调。然而这套看似完美的体系并非没有“暗礁”。首先它严重依赖于目标函数的可微性。一旦网络中存在不可微的组件例如脉冲神经元中的阶跃函数或者我们面对的是一个完全的黑箱系统只知道输入输出不知内部结构反向传播便立刻失效。其次随着模型规模膨胀至千亿、万亿参数存储和计算完整的梯度信息所需的内存和算力开销变得惊人即便有自动微分Automatic Differentiation的加持。再者从计算神经科学的角度看大脑显然没有运行一套全局的、精确的误差反向传播算法。神经元之间没有共享完美的权重对称性也没有一个中央控制器来协调全网的梯度计算。这就引出了一个根本性的问题是否存在另一条不依赖于显式梯度计算的优化路径这条路径不仅能处理上述挑战或许还能为我们理解生物智能的学习原理提供新的线索。答案是肯定的这就是零阶优化Zeroth-Order Optimization的世界。与一阶梯度、二阶海森矩阵方法不同零阶方法仅通过查询目标函数值即“零阶”信息来寻找最优解。它不计算导数而是通过向参数施加随机扰动观察性能的变化从而估计出一个近似的“下降方向”。近年来随着像DeepZero这样的工作成功用零阶方法训练了数亿参数的ResNet以及进化策略Evolution Strategies在复杂强化学习环境中大放异彩零阶优化正从一个理论上的替代方案转变为具有实际竞争力的实用技术。更重要的是它为我们提供了一个统一的视角无论是人工神经网络中基于扰动的权重更新还是大脑中基于神经噪声和全局奖励信号的突触可塑性其底层可能共享着同一套“探索-利用”的优化逻辑。本文将深入拆解这一视角从梯度下降的局限出发剖析零阶优化的核心机制探讨其在现代大模型训练中的实践并最终将其与生物学习的基本原理联系起来。2. 梯度下降的基石与隐忧为何需要零阶方法2.1 反向传播效率背后的强假设反向传播的成功建立在几个关键假设之上。首先是可微性。整个计算图从输入到损失输出必须处处可微这样才能应用链式法则。这在处理连续值的前馈网络中不成问题但对于脉冲神经网络SNNs或包含离散决策如强化学习中的动作选择的模型就需要引入代理梯度Surrogate Gradient等技巧进行近似这本身已经是对纯梯度方法的一种背离。其次是精确的局部误差信号。反向传播要求每一层的梯度都能被精确计算并传递。这引发了著名的“权重传输问题”Weight Transport Problem在生物学上前向连接的权重与反向传播误差所需的权重需要完美对称这在大脑的解剖结构中难以找到证据。尽管有反馈对齐Feedback Alignment等理论试图绕过此问题但它依然揭示了反向传播作为一种生物可塑性机制的 implausibility。最后是计算与存储开销。虽然反向传播的时间复杂度与正向传播同阶O(L)但其需要存储中间所有激活值以供反向计算这导致了巨大的内存开销成为训练超大模型的瓶颈之一。梯度检查点Gradient Checkpointing等技术以时间换空间但无法从根本上解决内存墙问题。2.2 高维非凸景观中的导航难题神经网络的损失函数景观Loss Landscape以其高维、非凸、充满鞍点和平坦区域而闻名。梯度下降类方法在此景观中航行严重依赖于梯度的局部信息。鞍点与平坦区域在高维空间中鞍点梯度为零但既非极小也非极大的点的数量远多于局部极小值。一阶方法容易陷入鞍点或平坦区域的停滞期。虽然SGD的随机性来自小批量采样有助于逃离一些鞍点但这并非保证。梯度噪声与泛化有趣的是SGD中的梯度噪声Mini-batch Noise常被视为一种隐式正则化它阻止模型收敛到尖锐的极小值转而寻找更平坦的极小值这通常与更好的泛化能力相关。这暗示了随机性本身可能是一种有益的优化资源而非纯粹需要克服的障碍。超参数敏感性与自适应优化器学习率的选择至关重要。为此Adam、Adagrad等自适应优化器通过累积历史梯度信息为每个参数调整步长。然而它们引入了额外的动量和二阶矩估计增加了状态变量并且其调参本身如beta1, beta2, epsilon又是一门艺术。2.3 零阶方法的登场时机正是在上述背景下零阶优化方法的价值得以凸显。它们在以下场景中具有天然优势黑箱优化当目标函数是一个仿真器、物理实验或商业流程我们只能获取输入对应的输出值而无法知晓其内部数学形式或梯度时。超参数优化Hyperparameter Optimization是典型例子。不可微系统系统包含不可微的组件或离散变量。例如直接优化神经网络的架构NAS的一部分、训练脉冲神经网络或某些强化学习策略。计算资源受限当计算完整梯度的成本无论是时间还是内存过高时零阶方法可能提供一种更轻量级的替代方案尤其是在分布式或并行环境下可以对大量参数进行并行扰动评估。生物启发的计算模型当我们试图构建更贴近生物神经系统学习机制的模型时零阶的、基于扰动和全局反馈的范式比精确的反向传播更具生物合理性。零阶方法的核心思想是即使没有梯度我们也可以通过智能地“试探”系统并从性能变化中学习来找到前进的方向。这听起来很像我们人类学习一项新技能的过程——通过尝试不同的动作扰动观察结果性能反馈然后强化那些带来好结果的行为。3. 零阶优化算法族谱从随机搜索到智能扰动零阶优化并非单一算法而是一个庞大的家族。我们可以根据其探索参数空间的策略将其分为几个主要类别。3.1 直接搜索法与随机搜索这是最直观的一类方法。它们不构建梯度估计模型而是直接通过比较不同参数点处的函数值来决定搜索方向。模式搜索Pattern Search与单纯形法Nelder-Mead通过在参数空间构造一个几何模式如单纯形根据顶点函数值进行反射、扩张、收缩等操作逐步移动并缩小模式以逼近最优点。这类方法稳健但收敛速度较慢维数灾难问题明显。随机搜索Random Search在搜索空间内随机采样点并保留历史最优。虽然简单但在某些情况下尤其是低维或中等维度其效率可能超过复杂的梯度调参。在超参数优化中随机搜索常作为基准方法因为它能避免陷入局部最优且易于并行化。实操心得对于超参数调优不要低估网格搜索Grid Search和随机搜索。当超参数数量不多5且取值范围明确时网格搜索可以给你一个全面的视图。当超参数较多或某些参数对性能影响非线性时随机搜索往往能以更少的尝试次数找到更优的区域因为它能更均匀地探索整个空间。3.2 基于模型的贝叶斯优化这类方法属于“智能”的零阶方法。它们通过已评估的点来构建目标函数的代理模型通常是高斯过程并利用一个采集函数Acquisition Function来平衡探索未知区域和利用模型预测的好区域以决定下一个评估点。核心流程初始化随机评估少数几个点。构建代理模型用所有已评估点(参数 性能)拟合一个概率模型。优化采集函数选择下一个能使采集函数最大化的点这本身是一个优化问题但通常更简单。评估新点在真实系统上运行获取性能值。更新模型并重复。优势与局限贝叶斯优化在低维问题通常20维和评估成本极高的场景下如一次实验需要几天或花费巨大极其高效。它能用很少的评估次数找到接近全局最优的解。但其计算复杂度随已评估点数量增长而快速增加且高维空间下构建准确的代理模型非常困难。3.3 近似梯度法零阶优化的中坚力量这是将零阶思想与梯度下降框架结合得最紧密的一类方法也是当前在神经网络训练中取得突破的主力。其核心是利用函数值的差分来近似梯度。有限差分法Finite Difference最基础的近似。对于参数向量 θ要估计其梯度传统中心差分需要对每个参数维度进行两次扰动grad_approx[i] (f(θ ε * e_i) - f(θ - ε * e_i)) / (2ε)其中e_i是第i个标准基向量。这需要2d次函数评估d为参数维度对于百万、千万参数的神经网络完全不可行。同时扰动随机逼近SPSA一种巧妙的降维方法。它不再逐个扰动每个参数而是所有参数同时被一个随机向量扰动grad_approx (f(θ c * Δ) - f(θ - c * Δ)) / (2c) * Δ其中 Δ 是一个随机向量通常各分量独立服从伯努利分布。关键在于它只需要2次函数评估与参数维度d无关虽然单个估计的方差较大但通过多次迭代的平均可以收敛到真实梯度。SPSA是处理超高维黑箱优化的利器。权重扰动Weight Perturbation, WP与节点扰动Node Perturbation, NP这是直接应用于神经网络训练的两种经典近似梯度法。权重扰动向所有权重添加一个小的随机高斯噪声 ξ ~ N(0, σ²I)然后计算损失变化来估计梯度方向grad_approx ∝ (L(θξ) - L(θ)) * ξ。这可以看作是对一个高斯平滑后的损失函数求梯度具有一定的正则化效果。节点扰动一个更高效的变体。它不直接扰动权重而是扰动神经元在激活函数前的输入即预激活值。假设网络有N个神经元参数有d个d N。扰动N个节点的预激活值其效果会通过前向传播影响所有与之相连的权重。这样我们只需要N次扰动或更少就能估计出所有d个权重的更新方向显著降低了扰动空间的维度从而降低了梯度估计的方差。注意事项WP和NP估计出的梯度是真实梯度的无偏估计但方差很大。这意味着更新方向噪声很大收敛速度会比精确梯度慢得多。为了稳定训练通常需要使用非常小的学习率并可能结合动量Momentum或RMSProp等技巧来平滑更新方向。此外扰动强度σ的选择是个关键超参数太大则估计不准太小则信号会被数值误差淹没。3.4 群体智能与进化算法这类方法受生物群体行为启发维护一个“种群”一组候选解通过模拟自然选择、交叉、变异等过程来迭代进化。进化策略Evolution Strategies, ES与神经网络训练尤其相关。其基本流程以最简单的(μ, λ)-ES为例初始化一个父代参数向量 θ。变异生成 λ 个子代每个子代 iθ_i θ σ * ε_i其中ε_i ~ N(0, I)。评估计算每个子代的适应度Fitness即损失函数的负值f(θ_i)。选择从 λ 个子代中选出适应度最高的 μ 个作为新的父代。更新新的父代参数可以是这 μ 个精英个体的加权平均。 研究发现在某些设定下ES的更新方向在期望上等价于对损失函数做有限差分近似。这意味着ES本质上是在执行一种零阶的随机梯度下降。它的优势在于极易并行化所有子代评估相互独立且对稀疏奖励、非平滑目标函数非常鲁棒。OpenAI曾用ES成功训练了大型的强化学习策略网络。其他元启发式算法如粒子群优化PSO、蚁群算法ACO、萤火虫算法等。它们在特定类型的优化问题如组合优化、多模态优化上表现优异但在训练大规模深度神经网络方面其效率和可扩展性通常不如ES或近似梯度法。4. 零阶方法在神经网络训练中的实践与突破长期以来零阶方法因其高方差和慢收敛速度被认为无法胜任大规模神经网络的端到端训练。但近年来的研究正在打破这一成见。4.1 经典应用超参数优化与架构搜索这是零阶方法特别是贝叶斯优化和随机搜索的传统优势领域。优化学习率、批大小、网络层数、卷积核数量等超参数正是一个典型的黑箱、评估代价高的问题。TPE、SMAC等基于序列模型的优化算法在此领域已成为标准工具。4.2 挑战核心训练大规模前馈与循环网络真正的突破在于直接用零阶方法优化网络权重。DeepZero的启示2023年的DeepZero工作展示了零阶方法训练大型视觉模型的潜力。其核心是大规模并行化的坐标有限差分。它将庞大的参数向量分割成许多块在分布式系统上并行地对每一块参数进行独立的有限差分扰动和评估。通过极致的并行化它克服了有限差分法计算成本高的缺点成功在CIFAR-10上训练了ResNet甚至扩展到3亿参数的模型取得了与反向传播可比的性能。这证明了只要有足够的计算资源进行并行评估零阶方法在原则上可以训练任意规模的模型。循环网络的零阶训练循环神经网络RNN因其时序依赖和梯度消失/爆炸问题训练颇具挑战。有研究将类似DeepZero的高并行有限差分策略应用于RNN成功训练了参数规模达十亿级的模型在长序列建模任务上达到了与BPTT相当的效果。这尤其令人惊讶因为RNN的时序深度放大了优化难度而零阶方法绕开了梯度计算似乎不受此影响。进化策略的强化学习舞台在强化学习RL中智能体通过与环境的交互获得奖信号这个信号通常是稀疏、有噪声且不可微的。ES在这里如鱼得水。由于ES只关心策略参数变化带来的最终回报差异而不需要计算策略梯度它能够处理非常长的决策序列和稀疏奖励。Salimans等人2017年的工作表明ES可以作为一种可扩展的RL替代方案在某些连续控制任务上达到甚至超过策略梯度方法的性能。4.3 关键实现技巧与调参经验将零阶方法成功应用于神经网络训练离不开一系列工程和算法上的技巧。方差控制是生命线零阶估计的高方差是最大敌人。除了使用NP降低扰动维度还可以采用以下策略基线Baseline在计算性能差异时减去一个移动平均的基线值如历史平均回报可以中心化更新信号减少方差。归一化对估计的“梯度”进行归一化如除以它的L2范数可以稳定更新步长。动量与自适应学习率像Adam这样的自适应优化器可以无缝地与零阶梯度估计结合。将估计出的“梯度”输入给Adam利用其动量和一阶矩、二阶矩估计来平滑更新方向并调整步长效果显著。增大种群规模/扰动样本数在ES或扰动估计中使用更大的λ子代数或对同一扰动方向进行多次采样取平均可以直接降低估计方差但代价是计算成本线性增加。学习率与扰动强度的权衡学习率η和扰动强度σ是两个最关键的超参数。它们之间存在一个微妙的平衡σ 决定了探索的范围。σ 太小梯度估计受数值误差影响大σ 太大则是在一个过度平滑的函数上估计梯度可能偏离真实梯度方向。一个经验法则是让η * σ²保持在一个合理的量级。通常需要从一个较小的σ开始如1e-4到1e-2取决于参数尺度并可能随着训练衰减。学习率通常需要设置得比标准SGD/Adam小1到2个数量级以补偿梯度估计的噪声。并行化架构设计零阶方法的天然优势在于评估之间相互独立。在设计训练系统时应采用“参数服务器工作者”或All-Reduce的架构。主节点参数服务器持有当前参数θ将其广播给所有工作者每个工作者对参数进行不同的扰动或评估不同的子代计算损失并将损失值返回给主节点主节点聚合所有结果计算更新量并更新θ。这种模式可以充分利用大规模CPU或GPU集群。与一阶方法的混合策略一种实用的策略是“热启动”或混合训练。先用标准反向传播训练一段时间得到一个较好的初始点然后切换到零阶方法进行微调或继续训练。这尤其适用于处理训练后期出现的不可微操作或在资源受限时用零阶方法进行在线适应。5. 通往生物可塑性零阶优化作为统一的学习框架零阶优化不仅是一种工程上的替代方案更提供了一个强大的理论透镜用以审视生物神经系统可能的学习机制。5.1 反向传播的生物合理性困境尽管反向传播在人工网络中极其成功但将其直接映射到大脑却面临多重困境非局部误差传递神经元需要接收来自遥远下游层的精确误差信号。权重对称问题前向和反向路径需要完全相同的连接权重。精确的时序控制需要严格区分前向传播推理和反向传播学习两个阶段。可微性生物神经元的脉冲发放是离散事件突触传递具有随机性整个系统本质上是非平滑、非可微的。5.2 三因素学习规则一个生物可行的替代方案神经科学中一个被广泛接受的框架是三因素学习规则。它认为突触强度的改变取决于三个因素的结合前突触活动突触前神经元的放电。后突触活动突触后神经元的放电或去极化。全局神经调制信号如多巴胺、血清素、乙酰胆碱等它们编码了关于行为结果如奖励、惩罚、新奇性的全局信息。这个框架是局部性的前两个因素在突触附近可得且通过第三个因素将局部变化与全局目标关联起来。5.3 噪声作为探索引擎调制信号作为指导这正是零阶优化在生物学上的完美对应随机扰动噪声大脑中充满了各种噪声源——神经递质的随机释放、离子通道的随机开闭、自发性的神经脉冲。这些内在的随机性不是需要被消除的缺陷而可能是一种关键的计算资源。它们持续地对神经网络的激活状态和突触效能进行微小的、随机的“扰动”相当于在参数空间中进行探索性采样。全局反馈调制信号当动物的行为产生了一个有益的结果如获得食物中脑的多巴胺神经元会释放一个代表“奖励预测误差”的信号。这个信号广泛投射到前脑皮层。根据三因素规则这个全局信号会“盖章”确认那些在奖励前刚刚活跃过的突触连接使其得到强化。计算映射将生物系统映射到零阶优化框架前向传递推理输入刺激引发神经网络活动产生行为。扰动与探索内在神经噪声在活动过程中持续引入随机波动。性能评估环境根据行为结果产生奖励/惩罚。全局反馈多巴胺等系统计算奖励预测误差作为一个标量全局信号δ。参数更新每个突触根据其局部的“资格迹”一个记录近期前-后神经元相关活动的短期记忆和全局信号δ来调整其强度。如果δ为正好于预期则增强近期活跃的突触如果δ为负差于预期则减弱它们。这个过程在数学上可以推导出类似于节点扰动NP的更新规则。突触的更新量正比于全局反馈信号δ与局部扰动或活动相关性的乘积。这正是在没有显式梯度的情况下通过随机扰动和全局标量反馈来估计“下降方向”。5.4 支持证据与计算模型越来越多的计算神经科学模型支持这一观点。例如Fiete等人2006的模型表明膜电导的随机波动可以近似实现梯度下降并成功模拟了鸟类鸣唱学习。Legenstein等人2010提出了一个奖励调制的Hebbian学习规则并将其映射到节点扰动算法解释了大脑皮层在脑机接口任务中观察到的网络重组现象。针对基底节和小脑的详细计算模型也显示其随机发放机制可以实现某种形式的随机梯度下降。这些模型共同指向一个结论大脑可能通过一种基于扰动的、零阶的、且高度分布式的机制来优化其内部连接以实现学习。这种机制在原理上与ES、SPSA、WP/NP等算法相通。6. 未来展望跨领域的融合与启示零阶优化视角的兴起正在机器学习、神经科学和神经形态计算之间架起新的桥梁。对于机器学习它拓宽了我们的优化工具箱。在可预见的未来反向传播仍将是大多数场景下的首选因为它效率最高。但零阶方法为我们处理不可微、黑箱、超高维或需要极致并行的问题提供了坚实的备选方案。研究如何降低零阶估计的方差、设计更高效的并行扰动策略、以及开发混合一阶/零阶的算法是富有前景的方向。对于神经科学这一视角将关注点从“大脑如何实现反向传播”转移到了“大脑如何实现高效的、基于扰动的优化”。这促使我们重新审视神经噪声、神经调质和局部可塑性规则的功能意义。它提供了一个统一的理论框架来解释从突触到行为的多个层次的学习现象。对于神经形态计算意义尤为重大。神经形态硬件如基于忆阻器、Spin-Torque Oscillator的芯片旨在模拟大脑的低功耗、并行、事件驱动的特性。这些硬件通常具固有的噪声和非理想特性。强迫它们去运行为同步、精确的冯·诺依曼架构设计的反向传播算法是低效且不自然的。相反设计一种直接利用硬件固有噪声作为随机扰动源并通过全局电信号进行强化的原位学习算法是与硬件特性完美匹配的路径。这有望解锁神经形态硬件在边缘计算、实时自适应系统方面的巨大潜力。最后回到神经网络训练本身零阶方法也促使我们反思“优化”的本质。过参数化网络中的“双下降”和“顿悟”现象表明优化轨迹和泛化性能深受优化算法动态特性的影响。零阶方法带来的不同噪声特性可能会引导模型收敛到与梯度下降不同的极小值区域从而可能发现新的、泛化能力更强的解。将噪声视为一种设计元素而非干扰主动设计优化算法的探索动态或许是下一代优化器发展的关键。在这个意义上从梯度下降到零阶优化不仅仅是一次算法工具的扩展更是一次思维范式的转换。它让我们看到最强大的学习或许不在于精确的计算而在于巧妙地利用随机性进行探索并通过简单而全局的反馈来稳健地强化成功。这既是机器高效学习的另一条路径也可能正是生命智能数十亿年进化所萃取的精华。