2025_NIPS_Structured Reinforcement Learning for Combinatorial Decision-Making
文章核心总结与翻译一、主要内容本文针对组合动作空间的马尔可夫决策过程(C-MDPs),提出结构化强化学习(SRL)框架,解决传统强化学习在工业场景(如路径规划、调度、品类优化)中面临的动作空间指数级增长、泛化能力弱、收敛不稳定等问题。SRL将组合优化层(CO-layer)嵌入演员-评论家架构,通过Fenchel-Young损失实现端到端训练,并从几何角度被解释为矩多面体对偶空间中的原始-对偶算法。在6个含内外源性不确定性的静态/动态环境中验证,SRL在静态任务上匹配结构化模仿学习(SIL)性能,在动态任务上较非结构化RL(如PPO)提升高达92%,较SIL提升高达78%,同时具备更好的稳定性和收敛速度。二、创新点架构创新:提出COAML管道(组合优化增强机器学习管道),将神经网络的状态编码能力与组合优化器的动作空间结构化探索能力结合,解决组合动作空间的可行性与扩展性问题。训练机制创新:采用Fenchel-Young损失函数,通过高斯扰动实现组合优化层的梯度传播,无需专家监督即可在线生成目标动作,突破模仿学习对专家示范的依赖。几何视角创新:将SRL解释为基于采样的原始-对偶算法,为组合强化学习提供理论支撑,阐明其在矩多面体对偶空间中的优化机制。实用性创新:在动态车辆调度、动态品类优化等工业场景中验证,兼顾性能、稳定性与泛化性,为无专家示范的组合决策问题提供有效解决方案。