多轮Agent蒸馏终于不翻车！港中文x通义新方法成功率暴涨18点，训练还快32%

张

张建站

2026/5/8 17:29:21

10分钟阅读

多轮Agent蒸馏终于不翻车！港中文x通义新方法成功率暴涨18点，训练还快32%

TCOD团队投稿凹非寺量子位 | 公众号 QbitAI把强大模型的能力“蒸馏”给小模型听起来很美——但放到多轮对话Agent场景里效果往往一塌糊涂。为什么香港中文大学联合阿里通义事业群给出了答案并提出了一种名为TCODTemporal Curriculum On-Policy Distillation的训练方法。上图左表示在多轮Agent的OPD训练中随着交互轮次的增加教师模型对学生生成回复中各token的概率分配持续降低表明每轮的 KL 散度不断攀升最终导致监督信号失效。右表示原始OPD使用完整轨迹进行训练因此包含了所有累积的误差而TCOD-F2B/B2F则通过课程学习从短轨迹逐步扩展至长轨迹有效规避了误差轮次的干扰。团队发现失效的根本原因在于轨迹级KL不稳定性每一轮误差不断累积把学生模型推到老师模型从未见过的状态区域老师的监督信号因此彻底失效。而TCOD用课程学习的思路让学生模型从短轨迹开始、循序渐进地学习完整轨迹一举解决了多轮Agent蒸馏的稳定性难题。TCOD只需对现有OPD代码做极少改动On-Policy DistillationOPD已经在SFT和RL之后成为了第三种有效的post-training训练方式。然而OPD虽然在数学推理等单轮任务上很好用但放到ALFWorld、WebShop这类多轮交互任务里直接翻车小模型KL散度飙升成功率崩塌到接近0大一点的模型虽然最终收敛但初始KL极高训练极不稳定(ALFWorld上不同师生模型组合的轨迹级KL分析。(a)(b) 显示在整个训练过程中KL散度持续攀升同时任务完成率出现崩塌。(c) 展示了OPD训练中初始KL与收敛后KL之间的巨大差距。(d) 揭示了背后的根本原因KL散度随交互轮次的增加而增大表明误差沿轨迹方向不断累积放大。)那TCOD是怎么解决的呢核心思路很简单别一开始就让学生独立走完整条轨迹用课程学习从短到长慢慢来。具体有两种变体F2B前向到后向先让学生负责前几步再逐步接管后续步骤B2F后向到前向先让老师引导到接近终点的状态学生只负责最后几步再逐渐向前延伸两种方式只需对现有OPD代码做极少改动。KL崩溃被彻底压制小模型直接“满血复活”团队在三个难度递增的多轮Agent基准上验证了TCOD的效果包括ALFWorld具身导航、WebShop电商购物以及ScienceWorld科学推理。在这些基准上TCOD成功率最高提升了18个百分点同时把平均行动步数也一并压了下来。最值得关注的是小模型的“死而复生”。以Qwen3-1.7B为例用Vanilla OPD训练后模型在三个基准上的平均成功率仅有0.17%。这几乎是完全崩溃、毫无可用性。但换上TCOD之后同一个1.7B小模型的平均成功率直接拉升至18%以上提升幅度超过18个百分点。这意味着TCOD把一个“废了”的模型重新训活了。对于更大的模型TCOD则是锦上添花。以Qwen2.5-3B学生模型为例在ALFWorld的Valid Unseen测试集上Vanilla OPD成功率为60.45%而TCOD-F2B的成功率为79.19%提升了18.74个点。不仅如此TCOD还把完成任务所需的平均行动步数压缩了2.97步推理效率和任务性能同步提升。△TCOD与OPD在ALFWorld上的训练动态对比上图(a)(b) 分别展示了以Qwen2.5-7B为学生模型Qwen2.5-7B-RL之后的作为teacher模型时的成功率与KL散度变化曲线。TCOD在整个训练过程中始终保持更高的成功率同时KL散度也更加平稳可控。△TCOD与OPD在ALFWorld上的训练动态对比上图(a)(b)分别展示了以Qwen2.5-7B为学生模型Qwen2.5-7B-RL之后的作为teacher模型时的训练过程中的平均行动步数与优势函数的变化曲线。研究人员还专门构建了一个Hard测试集——121个教师模型pass10采样全部失败的任务教师自身成功率仅6.61%。结果Qwen2.5-7B学生模型在TCOD-B2F的训练下Hard集成功率达到20.66%比教师高出整整14个点。让模型学会”从短到长、循序渐进”地走轨迹不仅能学会老师会的还能泛化到老师根本不会的任务。△TCOD与OPD在ALFWorld上的域外泛化及困难集性能对比另外研究人员还测试了训练效率。TCOD-F2B和B2F比Vanilla OPD减少了约32%的总训练时间。原因也很直接课程学习早期只走短轨迹rollout更短、数据收集更快省下来的计算量相当可观。团队还进一步验证了超参鲁棒性发现课程扩展速率η在{2,4,6}之间变动成功率波动不超过2%几乎不需要调参就能直接用。TCOD展现出的这种“循序渐进”模式让AI更接近人类学习的方式。也就是先在简单场景里站稳脚跟再逐步挑战复杂任务而不是一开始就被扔进深水区。未来这类时序课程机制很可能成为训练长程Agent的标配组件。论文https://arxiv.org/pdf/2604.24005GitHubhttps://github.com/kokolerk/TCODModelScopehttps://modelscope.cn/collections/wjqkoko/TCODHugging Facehttps://huggingface.co/collections/kolerk/tcod

Translumo终极指南：解锁游戏和视频的实时屏幕翻译神器

Translumo终极指南：解锁游戏和视频的实时屏幕翻译神器【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 你是否曾…...

2026/5/8 17:29:04 阅读更多 →

从代工到品牌，他们用这套方法实现了溢价

引言在当今竞争激烈的市场环境中，许多中小企业面临着“有产品无品牌”的困境。如何在有限的预算下打造一个具有影响力的中国品牌？如何将创始人的故事转化为品牌资产？这些问题困扰着无数企业家。今天，我们将分享一个真实案例——「…...

2026/5/8 17:27:56 阅读更多 →

别只盯着‘外挂’：聊聊YOLOv5在FPS游戏中的另类应用与伦理边界

YOLOv5在FPS游戏中的创新应用与伦理思考：超越外挂的技术边界当计算机视觉遇上电子竞技，技术的光谱往往在"作弊工具"与"创新赋能"之间摇摆。YOLOv5作为当前最轻量高效的目标检测框架之一，正在游戏产业引发一场静悄悄的革…...

2026/5/8 17:27:53 阅读更多 →

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程【免费下载链接】Autovisor 2025智慧树刷课脚本基于Python Playwright的自动化程序 [有免安装版] 项目地址: https://gitcode.com/gh_mirrors/au/Autovisor 你是否厌倦了每天手动点击播放、等待…...

2026/5/7 18:12:05 阅读更多 →

ModelScope Auto Proxy：智能路由网关，零成本统一调用免费大模型API

1. 项目概述与核心价值如果你和我一样，是个重度依赖 AI 编程工具（比如 Cursor、Cline）的开发者，那你肯定对 OpenAI 的 API 调用成本又爱又恨。爱的是它强大的能力，恨的是账单上的数字。最近，国内的开源社…...

2026/5/7 9:02:42 阅读更多 →

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程）

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程） 当你第一次拿到AOCODARC H7DUAL这块飞控板时，可能会被密密麻麻的引脚和复杂的配置选项吓到。别担心，这篇教程将带你从零开始&#xff…...

2026/5/7 19:32:04 阅读更多 →

League Akari：你的英雄联盟游戏体验进化指南

League Akari：你的英雄联盟游戏体验进化指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 想象一下这样的场景：你正在…...

2026/5/7 19:28:13 阅读更多 →