RAGEN:开源强化学习智能体训练框架完整指南
RAGEN开源强化学习智能体训练框架完整指南【免费下载链接】RAGENRAGEN leverages reinforcement learning to train LLM reasoning agents in interactive, stochastic environments.项目地址: https://gitcode.com/gh_mirrors/ra/RAGENRAGENReasoning AGENT是一个灵活的强化学习框架专为训练推理智能体而设计。它利用强化学习技术在交互式随机环境中训练LLM推理智能体帮助开发者诊断智能体失败模式优化RL训练过程。 RAGEN核心功能与优势统一的StarPO框架RAGEN基于StarPOState-Thinking-Actions-Reward Policy Optimization框架构建这是一个统一的RL框架支持多轮、轨迹级智能体训练可灵活控制推理过程、奖励分配机制和提示-rollout结构。图RAGEN的StarPO框架展示了rollout阶段和update阶段的交互流程LLM生成推理引导的动作与环境交互收集轨迹级奖励以联合优化推理和动作策略。丰富的内置环境RAGEN提供10种内置环境包括Sokoban、FrozenLake、WebShop、DeepCoder、SearchQA、Lean、Bandit、Countdown、MetaMathQA和Sudoku满足不同场景的训练需求。强大的诊断工具RAGEN-2引入了SNR-Adaptive Filtering和推理崩溃诊断功能通过奖励方差进行轻量级rollout过滤缓解噪声梯度更新并使用互信息代理指标检测和监控训练期间的模板崩溃。 快速开始环境准备首先克隆仓库并设置环境git clone https://gitcode.com/gh_mirrors/ra/RAGEN cd RAGEN conda create -n ragen python3.12 -y conda activate ragen bash scripts/setup_ragen.sh如需包含搜索环境使用bash scripts/setup_ragen.sh --with-search。WebShop环境设置请参考docs/experiment_webshop_release.md。基础训练使用默认配置训练python train.py --config-name _2_sokoban使用SNR-Adaptive Filtering训练RAGEN-2推荐的训练方式python train.py --config-name _2_sokoban \ actor_rollout_ref.rollout_filter_strategytop_p \ actor_rollout_ref.rollout.rollout_filter_value0.9模型评估评估训练好的模型python -m ragen.llm_agent.agent_proxy --config-name _2_sokoban 核心算法与技术StarPO轨迹级优化强化推理StarPO框架包含两个交错阶段Rollout阶段LLM生成多个轨迹在每个步骤产生推理引导的动作Update阶段使用重要性采样优化整个轨迹支持PPO和GRPO算法推理崩溃诊断RAGEN-2将推理质量分解为两个维度输入内多样性条件熵H(Z|X)跨输入可区分性互信息I(X;Z)这有助于识别四种推理状态多样化推理、模板崩溃、压缩推理和低熵崩溃。图四种推理状态沿两个维度展示 - 条件熵H(Z|X)输入内多样性和互信息I(X;Z)输入依赖性。模板崩溃高熵低MI无法通过现有基于熵的指标检测。SNR-Adaptive Filtering该技术使用奖励方差作为轻量级代理在每次迭代中选择高信号提示直接解决模板崩溃的根本原因。实验结果表明SNR-Adaptive Filtering在各种算法、模型规模和模态上持续改进训练效果。图在不同环境和模型配置下使用过滤策略与不使用过滤策略的性能对比绿色表示过滤带来的增益。⚙️ 配置与高级用法评估配置评估设置在config/eval.yaml中配置关键部分包括模型配置、rollout设置、代理设置、环境设置和输出配置。例如model_path: Qwen/Qwen2.5-3B-Instruct lora: rank: 0 # 设为0禁用LoRA0用于LoRA微调模型 actor_rollout_ref: rollout: max_model_len: 3600 # 最大上下文长度 response_length: 400 # 每个响应的最大token数 val_kwargs: do_sample: True # 启用采样 temperature: 0.5 # 采样温度输出格式支持PKL和JSONL两种输出格式。PKL是默认的二进制格式包含完整的DataProto对象JSONL是人类可读的格式每行是OpenAI消息格式的轨迹。过滤策略RAGEN提供多种过滤策略推荐使用Top-p Linearactor_rollout_ref: rollout: rollout_filter_strategy: top_p rollout_filter_value: 0.9 rollout_filter_top_p_prob_mode: linear rollout_filter_include_zero: False rollout_filter_selection_eps: 0.01 训练监控与分析奖励曲线分析RAGEN提供奖励曲线可视化帮助监控训练过程。通过分析不同模型的奖励变化可以评估训练效果和模型性能。图不同模型在训练过程中的平均奖励变化曲线展示了训练稳定性和收敛速度。评估指标评估后会显示关键指标如成功率、平均动作数、passk等rollout rewards: 0.85 metrics: CoordSokoban/success: 0.78 CoordSokoban/num_actions: 4.2 CoordSokoban/pass16: 0.92 文档与资源完整文档 - 即将更新RAGEN-2版本评估指南 - 如何评估模型和配置输出格式Rollout过滤指南 - 训练时过滤策略详解MI指标参考 - 互信息指标说明 未来计划RAGEN团队正在积极开发下一代基础设施和诊断工具计划于2026年3月下旬发布包括异步rollout引擎、基于HTTP的环境接口、扩展基准套件和多模态智能体支持等功能。通过RAGEN开发者可以更轻松地训练和优化强化学习智能体解决推理崩溃等关键问题推动LLM智能体在复杂环境中的应用。无论是研究人员还是工程师都能从这个强大的开源框架中受益。【免费下载链接】RAGENRAGEN leverages reinforcement learning to train LLM reasoning agents in interactive, stochastic environments.项目地址: https://gitcode.com/gh_mirrors/ra/RAGEN创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考