UCLA与亚马逊突破:AI助手实现思维纠偏能力提升避免逻辑混乱
这项由加利福尼亚大学洛杉矶分校与亚马逊公司联合开展的研究发表于2026年第43届国际机器学习大会ICML 2026会议地点为韩国首尔收录于PMLR 306论文集。论文编号为arXiv:2605.02178有兴趣深入了解的读者可通过该编号查询完整论文。研究概要一个越想越乱的AI和一群决心帮它冷静下来的研究者假设你在网上购物雇了一个助手帮你找一件特定的红色棉质女款衬衫价格低于40美元。你满心期待地等着它给你一个答案结果发现它开始滔滔不绝地自言自语——反复核对面料是不是纯棉、颜色是不是正红、尺码有没有XL……说了足足500个字之后话还没说完时间已经到了助手根本没来得及告诉你要点哪个按钮。这还不算完下一轮它又从头重复同样的废话在同一个错误路上打转。这个荒诞的场景其实正是当今最先进的AI助手在完成复杂任务时频繁上演的真实困境。研究团队将这种行为称为犹豫——AI不是在认真解决问题而是在无休止地自我纠结既无法减少不确定性也无法推进任务进展。为了解决这个问题研究团队提出了一套名为T?POToken- and Turn-level Policy Optimization即词元与轮次双层策略优化的方法。简单来说这套方法在AI每次生成内容时从两个层面同时把关一是盯住每个字词的生成质量当AI开始废话连篇时及时叫停二是在多轮对话的层面当AI陷入无效的重复循环时果断重新来过。实验结果相当亮眼。在模拟网上购物的WebShop测试中T?PO让任务成功率从73.83%一路提升到81.64%同时大幅减少了训练过程中常见的崩溃现象。在模拟家务场景的ALFWorld测试中T?PO比此前最佳方案提升了约8到12个百分点。这些数字背后是AI助手从一个焦虑型废话王蜕变为沉着型行动派的过程。---一、 AI为什么会想太多从反复横跳到彻底宕机要理解这项研究解决的问题先要知道今天的AI助手是怎么工作的。现代AI助手完成一个任务通常不是一问一答那么简单而是要经历多个来回搜索一下、看看结果、点进去、再看看、再决定下一步……就像你在网上购物时从搜索到付款要经过好几个页面。这种多轮交互的工作方式给AI带来了很大的挑战。其中一个核心挑战叫做信用分配——当任务最终失败或成功时AI需要知道是哪一步做对了、哪一步做错了。可问题在于最终的奖励往往只在任务结束时才会给出就像一个学生考完试才知道成绩却无法得知每道题答得怎么样。这种稀疏的反馈信号让AI很难从错误中学习。另一个挑战来自效率与稳定的矛盾。为了让AI学得更快研究人员通常会让它同时跑很多个练习任务然后批量更新参数。但这意味着AI学到的新知识和它正在执行的旧任务之间始终存在一个时间差——用过时的自己去做任务然后用做完的结果来更新现在的自己这个循环本身就容易失控。研究团队通过分析大量训练轨迹找到了训练崩溃的根本原因AI陷入了犹豫。在字词生成的层面AI会产生大量信息含量极低的内容就像一个演讲者明明已经说完了要点却还在用各种废话填充时间而这些废话会把真正有用的判断淹没在噪音里。在任务轮次的层面AI有时在最初几步就走错了方向却没有任何机制让它意识到这一点于是它一轮又一轮地重复同样毫无意义的操作把有限的资源全部浪费在死胡同里。这两种犹豫叠加起来让AI的训练过程变得极不稳定——梯度爆炸可以理解为AI更新参数时用力过猛直接把自己改崩和KL散度飙升可以理解为新旧版本的AI差异变得太大导致学习失控频繁出现最终让原本应该越来越聪明的AI反而越来越差甚至彻底失能。---二、 给AI安装一个内心温度计自校准不确定性信号研究团队的第一步是给AI装上一个能实时感知自身状态的传感器。在AI生成每一个字词时它实际上是在对整个词汇表做概率分配——每个词被选中的可能性有多大。这种概率分布的形态直接反映了AI当前的信心状态。当AI非常确定下一个词应该是什么时概率分布会非常集中像一座高耸的尖峰当AI不确定时概率会分散开来像一片平缓的丘陵。传统上有两种方法来衡量这种不确定性一种叫做香农熵可以理解为概率分布有多分散另一种叫做置信度直接看AI对最可能那个词有多大把握。但两者都有盲区。熵的问题在于它对极端情况不够敏感。由于AI的词汇表可以多达15万个词比如Qwen3模型就有约15.2万个词即便AI的分布已经非常集中了熵的数值看起来依然差不多。打个比方假设有100个人投票99个人投给同一个候选人和50个人投给同一个候选人从票数是否集中这个角度看差异是显著的但如果候选人是15万个这种差异就会被稀释得几乎看不见。置信度的问题则在于它只关注冠军完全忽视亚军和季军。两种截然不同的概率分布只要最高那个词的概率相同置信度就会完全相同——尽管这两种分布背后AI的状态可能大相径庭。为了解决这两个问题研究团队提出了一种自校准不确定性信号记为Mt。它把熵和置信度分别归一化统一到同一个尺度然后用一个可以调节的比例因子把二者融合。研究发现当这个比例偏向0.4时即熵占40%置信度占60%效果最好。这个融合信号的优势可以从直观图形上看出来纯熵的等高线图在接近均匀分布的区域几乎无法区分细微差异纯置信度对尾部概率分布完全不敏感而融合后的Mt产生了非线性的等高线能够同时区分出顶端概率高低与尾部分布形态覆盖了两者各自的盲区。这个信号的另一个重要特性是它会随着生成过程动态变化。研究团队观察到在AI生成一段回答的过程中Mt的轨迹通常是先升后降——它先进入一个高度不确定的区域正在思考然后逐渐稳定下来已经确定方向。而那些不确定性最高的词往往恰恰是最关键的任务相关词比如产品名称、属性描述符等。这个观察为后续两个干预机制提供了理论基础。---三、 给AI的内心独白设一个说够了就停的开关词元级思维干预有了Mt这个信号研究团队做的第一件事是解决AI想太多的毛病。当AI在生成内部推理过程即包裹在思考标签里的那部分内容时它有时会一直说下去远远超出真正有用的部分。就像一个人解题时把有效的思路写完了却还在继续写我再想想……也许还有另一种可能……不对让我再考虑一下……这些后续的自言自语不仅浪费纸还会让最终答案被掩盖。词元级思维干预TTI的逻辑是这样的研究团队用一个滑动窗口持续监测Mt相邻两步之间的变化量记为△t。如果这个变化量在连续N步内的平均值都低于一个阈值ε就说明AI的思考已经在原地打转没有带来新的信息增益了。此刻系统会直接向AI的输出机制注入一个强制指令把接下来那个词的概率全部集中到结束思考这个特殊标记上概率为1让AI立刻停止内心独白进入行动阶段。一个自然的问题是为什么不在Mt达到峰值时就停峰值代表不确定性最高直觉上似乎在那之后生成的内容都是多余的。但研究团队的分析显示不确定性最高的词往往分属两类一类是推理转折词类似啊我明白了这种节点另一类是任务关键词比如具体的产品名称。如果在峰值时就截断很可能会切掉关键的产品信息。而采用滑动窗口均值的方式则能有效过滤掉孤立的高不确定性词只在持续稳定低变化时才触发停止——这样就保住了那些分散在句子各处的关键词同时剔除了真正的废话尾巴。这个机制还设有两道保险其一每次生成中只允许触发一次避免反复打断其二设置一个最大生成长度即使滑动窗口条件从未触发到了上限也会强制结束确保不会无限生成。实验数据显示去掉这个机制后任务成功率从81.64%降至73.27%说明适时打断AI的自说自话对任务完成质量有实质性的提升。---四、 当AI在死路上原地转圈轮次级动态重采样光管住AI每次说话时的冗余内容还不够。更大的麻烦发生在对话轮次的层面。以前面那个购物场景为例AI在第一轮搜索后点进了一个明显不符合要求的产品然后退回搜索页再用完全相同的关键词搜索一遍又点进同一个产品……在案例分析中研究团队发现AI的轮次3和轮次4几乎一模一样做的是完全重复的无效操作完全没有利用上一轮的信息来调整策略。这种原地踏步的行为就是轮次级的犹豫。要在缺乏逐轮奖励信号的情况下判断一轮对话是否有价值是个难题。研究团队想到了一个巧妙的办法把每一轮对话的Mt信号聚合起来计算整轮的不确定性指纹Φk具体计算方式是所有词元Mt值的几何平均即所有Mt连乘后开T次方根。然后比较相邻两轮的Φk是否有显著变化差值记为Γk。这个逻辑背后的直觉是如果AI真的在有效探索每一轮面对的环境状态不同、处理的信息不同它的内部不确定性结构应该也会相应变化Γk应该比较大。但如果AI只是在重复它每轮的不确定性指纹会高度相似Γk会很小。当Γk低于阈值η时系统判定这一轮是无效探索直接丢弃这轮生成的内容在相同状态下重新生成一次。这个重生成过程会一直持续直到产生一个Γk足够大的结果或者达到重采样预算上限为止。移除这个机制后实验中任务得分从93.84降至72.40成功率从81.64%降至63.67%是所有组件中影响最大的一个——这说明轮次级的重复循环是造成训练低效最核心的问题所在。---五、 其他辅助设计让AI从一开始就走对路除了两个核心干预机制T?PO还包含几个配套设计共同构成完整的训练框架。在训练启动阶段研究团队采用了一种叫做拒绝采样微调RFT的冷启动策略。具体做法是先让AI在目标环境里自由跑一批任务只保留那些最终得分超过阈值的高质量轨迹然后用这些轨迹做一轮监督学习让AI从一开始就有一个基本靠谱的行为基础。实验证明没有这个冷启动任务分数会从93.84降至79.28成功率从81.64%降至61.32%。这是因为早期训练阶段AI容易生成格式混乱的输出这些噪音会污染后续的学习过程。不过研究团队也发现RFT的轮数不能太多——超过五轮后AI开始把推理能力遗忘掉反而不利于后续的强化学习。在处理长轨迹时直接把整个任务历史塞进AI的上下文窗口会导致序列极长、计算量爆炸。研究团队因此引入了记忆上下文窗口机制让AI只保留最近P轮的历史记录而不是整个任务的完整历史。这在降低计算负担的同时也避免了过早轮次的噪音信息干扰当前判断。在奖励分配上研究团队采用了时间折扣机制越早的行动其奖励折扣越多越近的行动则权重越高。这样既能传递最终结果的成败信号又能让AI有机会从每一步的后续影响中学习。在策略更新算法上T?PO采用了组内组优势估计GiGPO的思路先在整个轨迹组的层面计算相对优势再在同一环境状态下不同行动之间计算细粒度优势最后把二者加权融合同时用KL散度惩罚项约束新旧策略之间的差异不能太大防止AI一次更新过猛把自己改坏。---六、 实战考验在购物、家务和问答三个战场上的表现研究团队在三个性质各异的环境中对T?PO进行了系统评测用的是Qwen3-4B和Qwen3-8B两个规模的基础模型。WebShop是一个模拟真实电商平台的购物环境包含超过110万件商品和1.2万条用户指令。AI需要搜索、浏览、比较最终完成购买。这个环境的特点是行动空间庞大、任务约束复杂颜色、尺码、价格、材质都要同时满足对细粒度决策的要求很高。在Qwen3-4B基础上T?PO达到了93.84的任务分数和81.64%的成功率相比此前最佳的GiGPODAPO组合任务分数86.54成功率74.02%有显著提升。更重要的是T?PO的方差极小±0.22和±0.39而对照组的方差动辄±9到±10说明T?PO训练过程稳定得多。在Qwen3-8B基础上这一趋势同样成立成功率达到82.42%。ALFWorld是一个文本家务场景AI需要理解自然语言目标比如把苹果放进冰箱在虚拟房间里一步步找到物体、执行操作直到目标完成。这个环境包含3827个任务实例分布在拾取放置、灯下检查、清洁放置、加热放置、冷却放置、拾取两个放置六大类别中。T?PO的总成功率达到90.23%在加热放置这一类别中更是高达98.33%全面领先于其他方法。相比之下即便是号称当时最强的闭源模型Claude Sonnet 4在这个任务上的成功率也只有63.71%而基于小模型训练的T?PO达到了90.23%差距显著。Search QA是一个多轮搜索问答任务包括单跳问题需要一步找到答案的问题如自然问题NQ、TriviaQA和多跳问题需要串联多个事实推理的问题如HotpotQA、MuSiQue。在单跳任务上T?PO在NQ上得分46.13在TriviaQA上得分64.08稳居前列。多跳问题更能体现T?PO的优势在MuSiQue这个公认最难的多跳问答数据集上T?PO得分16.64而此前最好的GiGPO只有13.40提升幅度超过24%。在七个数据集的平均分上T?PO达到54.93比GiGPO的52.97高出近2个点。从成功轨迹的token消耗分布来看T?PO生成的成功轨迹大多集中在较短的token区间而对照组的成功轨迹则更多分布在高token区间——这意味着T?PO用更少的思考量完成了更多的成功任务。在轮次数量上T?PO在WebShop上减少了约25%的交互轮次在ALFWorld上也减少了约16%这直接转化为计算资源的节省。---七、 和其他让AI少说废话方法的横向比较研究团队还专门和四种现有的思维控制策略做了对比这是理解T?PO价值的重要维度。第一种是冗长奖励方法它通过在奖励中加入对回答长度的惩罚来鼓励AI说短话——答对了但说得长少给奖励答错了还说得长额外扣分。这个方法的逻辑直接但问题在于它对所有内容一视同仁无论是真正有用的推理还是无意义的废话都会因为长度而受罚最终任务成功率只有65.87%。第二种是短链路思维冷启动用更简洁的GPT-4o示范数据来初始化AI让它从一开始就学会言简意赅。这个方法对早期训练稳定性确实有帮助但它不能在强化学习阶段动态调整推理过程随着训练推进AI会逐渐漂移回冗长模式成功率达到71.29%。第三种是硬性思维预算直接给推理过程设一个最大token数上限。这个方法的问题是静态的——不管当前任务有多难、当前推理有多重要一律在固定位置截断容易在难题上过早终止有价值的推理在简单题上又无法阻止无效填充成功率79.21%。第四种是无效轮过滤把包含无效或空白行动的轨迹从训练数据中移除防止退化行为污染学习。这个方法确实有效果成功率76.20%但它只能事后过滤无法主动干预生成过程中的冗余更无法处理那些格式合法但内容重复的轮次。T?PO的TTITDS组合以93.84分/81.64%的成绩大幅领先核心优势在于它是在生成过程中实时介入而不是依赖事后的奖励塑形或数据过滤因此能更精准地识别和切除真正的无效探索同时保留有价值的推理内容。---八、 训练稳定性从反复崩溃到持续向好训练稳定性是这项研究的核心关切之一值得单独拿出来说清楚。研究团队在不同随机种子下运行了多组实验用以检验方法的鲁棒性。结果显示现有方法包括Vanilla GRPO和GiGPO在某些随机种子下表现尚可但在另一些种子下会出现成功率先升后急剧下降的训练崩溃——这种崩溃的表征是成功率曲线突然塌陷同时梯度范数和KL散度急剧飙升。T?PO在三个不同随机种子下均呈现出单调递增、持续向好的成功率曲线没有出现崩溃现象。梯度范数和KL散度也保持在合理范围内说明策略更新始终处于可控状态。从机制上解释这种稳定性来自于T?PO对探索效率的主动管理通过减少无效token和无效轮次T?PO降低了信用分配信号的噪声水平让策略更新的梯度方向更加清晰可靠避免了因噪声过大而导致的参数更新失控。---说到底T?PO解决的是一个关于度的问题。AI需要足够深入地思考才能做出好决策但想得太多反而会带来反效果。这项研究的贡献在于它不是简单地用一把尺子限制AI说话的长度而是真正看清楚AI在每个时刻的内心状态在它真正停止有效思考的那一刻才介入并在整个多轮任务中持续监控是否陷入了无效循环。更有意思的是这种稳定性是从内部获得的不需要额外的奖励模型不需要人工标注的过程数据只依靠AI自己生成内容时产生的概率分布信号。换句话说AI学会了用自己的内心温度来判断自己是否还在有效工作。这对于未来构建更可靠、更省资源的AI智能体提供了一条颇具参考价值的路径。如果你对多轮强化学习、AI智能体训练或大模型推理优化感兴趣这篇论文无疑值得深读。可以通过arXiv编号2605.02178获取完整论文研究代码也已在GitHub上公开仓库名为WillDreamer/T2PO。---QAQ1T?PO中的词元级思维干预是怎么判断AI什么时候该停止推理的AT?PO会在AI生成每个词时计算一个自校准不确定性信号Mt这个信号融合了概率分布的分散程度熵和对最高概率词的置信度。系统用滑动窗口持续追踪相邻两步Mt的变化量如果连续N步内平均变化量低于阈值ε就说明AI的推理已经原地打转、不再产生新信息此时直接强制插入结束思考标记让AI进入行动阶段。这个机制只在生成了最短前缀之后才启动避免过早截断。Q2T?PO的轮次级动态重采样为什么不直接用任务奖励来判断哪轮有没有效果A在多轮交互任务中每一轮通常没有独立的奖励信号只有整个任务结束才会得到最终奖励。因此无法像单轮任务那样直接用正确率过滤轮次。T?PO的解决办法是把每轮所有词元的不确定性信号聚合成轮次指纹Φk通过比较相邻两轮指纹的变化量Γk来判断当前轮是否带来了新的信息结构变化变化太小就重新生成不依赖任何外部奖励标注。Q3T?PO和直接设置一个固定的最大推理长度有什么实质区别A固定最大长度是静态的不管任务难易和推理质量统一在同一个位置截断容易在难题上过早终止有价值的推理在简单题上又无法阻止无效填充。T?PO的截断时机是动态的由AI自身的概率分布变化来决定只在信息增益真正枯竭时才介入因此能保留关键推理内容同时剔除真正的废话实验中比固定预算方法的成功率高出约2.4个百分点。