25岁科技播客主持人追问AI 下一代训练范式会是什么能否突破“可验证任务”限制硅谷著名科技播客主持人 Dwarkesh Patel 最近抛出一个问题AI 的下一代训练范式会是什么Dwarkesh Patel 是硅谷近几年快速走红的科技播客主持人和写作者年仅 25 岁却已凭借 Dwarkesh Podcast 进入 AI 讨论的核心圈层。他的采访对象包括 Ilya Sutskever、Andrej Karpathy、Dario Amodei、Demis Hassabis、Mark Zuckerberg 等一众 AI 与科技大牛。TIME 曾将他列入 2024 年 TIME100 AI称他的播客已成为许多 AI 从业者的重要收听内容。在最新一期播客中他把当下前沿 AI 实验室正在押注的路线总结为一个关键词RLVR也就是 Reinforcement Learning with Verifiable Rewards可验证奖励强化学习。简单来说就是让模型在大量可自动判断对错的任务中反复试错训练出规划、纠错、迭代和长期执行能力。如今代码、数学等领域的快速进展很大程度上就源于这种思路。但 Dwarkesh 真正想问的是如果下一代 AI 只靠这种「可验证任务训练」够不够他的答案是可能不够。因为一个任务仅「可验证」还不够它还得「可刷」。这里的关键概念是 grindability可磨性。在 AI 训练语境里是「可反复刷题性」或者「可大规模 rollout 的能力」。代码任务就是典型的可刷任务。可以准备一个软件仓库、一个待修复 bug、一个测试用例然后把同一个环境复制成几千份让几千个 agent 同时尝试。谁通过测试谁就得分。这个过程可并行、可复现、可重置特别适合 RLVR。数学题也类似答案对错可验证训练环境也易复制。但 Dwarkesh 提出一个有意思的问题为什么 AI 在「使用电脑」这件事上进展反而比代码和数学慢表面上看电脑使用也是可验证的。比如东西有没有下单成功、活动场地有没有订好、税表有没有提交这些结果都能判断。但问题在于它很难被大规模复制和回放。不能让一千个 agent 同时去 Amazon 上反复跑同一个结账流程因为真实网站会识别 bot、封禁账户、改变状态。当然可以克隆 Slack、Gmail、Amazon 这样的应用来做模拟器但在当前阶段这仍是高成本、低扩展性的工程。Dwarkesh 指出AI 在某个领域进步快不只是因为该领域答案可验证还因为它能被包装成可复制、可回放、可并行试错的训练环境。这也解释了为什么代码、数学、游戏类任务会成为 RLVR 的天然温床而很多真实世界任务却很难直接纳入这套训练范式。接着他把问题引向更复杂的现实世界。如果想训练一个 AI 从零开始创业怎么办如果想训练它赢一场官司怎么办如果想训练它在市场中稳定赚钱或者帮助一个候选人赢得选举怎么办这些任务当然也有结果。公司有没有做起来官司有没有赢交易有没有盈利选举有没有胜出最终都能判断。但它们的问题在于反馈太慢变量太多世界不可重置也无法在数据中心里复制一千遍。一次创业可能持续数年。一次政治竞选依赖具体地区、候选人、选民情绪、媒体环境和偶然事件。一次法律案件也无法从同一个起点复制成一千个平行宇宙让不同 agent 分别试错。这类环境在强化学习里接近所谓 reset - free、non - stationary environment不能随便重置而且环境本身还在不断变化。Dwarkesh 因此提问RLVR 在可验证、可刷的环境里训练出来的 agent真的能泛化到这些真实世界任务吗这不是一个靠口号就能回答的问题而是一个实证问题。乐观派会说只要 RLVR 环境足够多、足够复杂模型最终会学到通用的 agent 能力。它在代码、数学、网页、工具使用中练出来的规划和试错能力最终会迁移到创业、组织管理、政治、法律、科学研究等领域。但 Dwarkesh 对此持怀疑态度。因为真实世界里最有价值的知识往往不是以清晰、可验证、可重复的方式出现的。它们可能来自一次含混的客户反馈一次失败的会议一个组织内部的隐性流程一种只有在真实任务中才会暴露的失败模式。模型要学会这些东西不能只靠「刷题」还得具备真正的样本效率。这就把讨论引到了全文最重要的一点learning back to the weights把学习重新写回权重。如今的大模型已很擅长 in - context learning。它能在一个长上下文里读很多资料理解一个项目背景临时适应一个用户或组织的需求。但问题是这种学习大多停留在上下文窗口里。会话结束后模型并不一定真正「长记性」。Dwarkesh 认为这是一种巨大的浪费。因为模型真正有价值的训练信号恰恰是在部署后才出现的。模型被真实用户使用进入真实组织参与真实任务暴露真实错误。它会看到公司内部怎么运转人们实际拿它做什么哪些地方经常失败哪些建议在现实中根本行不通。但如果这些经验无法沉淀回模型权重那它就只是一次会话里的短暂适应而不是能力的长期增长。他用人类学习做了个类比人不是靠把每天发生的所有事情都逐字背下来而变强的。一个员工工作半年后变得有用不是因为他记得每封邮件、每句会议记录而是因为他把这些经历压缩成了判断力、直觉、流程理解和问题模式。模型也应如此。真正的 continual learning不是无限扩大 KV cache也不是把所有历史记录塞进上下文而是从真实经验中提炼少量真正有用的知识再把它们压缩进权重。这正是 Dwarkesh 认为下一代训练范式必须解决的问题。那么具体怎么做他提到一个正在被讨论的方向on - policy self - distillation简称 OPSD。可以粗略理解为让一个已在长会话中积累大量经验的模型充当「老员工」或者 teacher然后训练基础模型让它在没有这些完整上下文的情况下也能做出类似 teacher 的判断。也就是说把模型在一次真实任务中通过上下文学到的东西再蒸馏回模型自身的权重。这和普通 SFT 不一样。最朴素的 SFT 可能只是让模型去预测会话里出现过的 token相当于让它复述整个工作日志。但这不是有效学习。真正重要的不是记住全部细节而是提炼出那些能帮助模型下次做得更好的关键洞见。OPSD 的优势在于它不一定需要一个外部可验证奖励。只要模型能在上下文里学到有用东西就可以把「学过之后的模型」当作 teacher让基础模型向它靠近。同时相比普通 RL 只有最终 rewardOPSD 能提供更密集的监督信号。它可以在 token 层面对比 teacher 和 student 的概率分布差异从而把一次真实任务中的稀缺经验压缩成更小、更精准的权重更新。除了 OPSDDwarkesh 还提出另一个方向dreaming。这里的 dreaming 指 AI 根据真实世界观察自己构造一个模拟环境然后在里面反复练习、尝试策略、强化有效行为。这听起来很像强化学习传统里的 model - based RL也很像 Sutton 一直强调的 agent 通过环境互动积累经验。不同的是Dwarkesh 把它放进了大模型和真实部署的语境中。比如一个 AI 在真实公司里观察到某个业务流程后不只是写一份总结而是花费大量计算构造出这个流程的「游戏版模拟环境」。然后它在里面测试不同沟通策略、执行路径和项目推进方式看看什么更可能成功。最后再把这些模拟练习中得到的经验压缩回模型。如果这种路线成立它可能会成为新的 scaling axis。过去 AI 的扩展主要来自三条轴pretraining、RL 和 inference - time compute。Dwarkesh 设想未来可能还会多出第四条轴test - time training或者说 dreaming。模型不只是推理而是在推理和任务执行过程中为特定用户、特定组织、特定项目构造模拟环境并在其中训练自己。这也是为什么评论区有人提到 David Silver 和 Richard Sutton 的《Welcome to the Era of Experience》那篇文章同样强调AI 不能永远依赖人类数据下一阶段的关键将是智能体从自身与环境互动中获得经验。Dwarkesh 则把这个宏观判断具体化到了今天的大模型训练问题上RLVR 是一个重要过渡阶段它让模型在可验证任务里练出 agent 能力但要进入更复杂的现实世界模型必须学会从真实部署中持续学习并把经验写回权重。在 Dwarkesh 设想的 2027 或 2028 年训练流程可能会变成这样首先RLVR 训练出一个基本 competent 的 agent。这个 agent 被扔到一个陌生问题里至少能搞清楚情况尝试不同策略遇到障碍后继续迭代然后这个 agent 被部署到真实世界中开始做真实工作。它可能和用户一起连续工作一周参与一个不在原始训练分布里的项目一周结束后用户给它一个 thumbs up 或 thumbs down甚至写一段工作评价。如果结果是正向的模型就会把这次任务中学到的东西蒸馏回基础模型。这个过程可能用 OPSD可能用 dreaming也可能用某种现在还没有出现的新技术。一旦这条路径跑通AI 的能力边界就不再被最初那些「可验证任务」限制住。它可以先通过 RLVR 学会代码、数学、网页任务、工具调用再通过真实部署学习组织管理、业务流程、复杂协作然后从这些经验出发继续扩展到相邻领域。这也意味着AI 进步的主要来源可能会发生变化。过去一个模型发布前训练好了用户只是使用它。下一代模型可能是发布前先训练出基础 agent发布后通过海量真实任务继续学习。每一次与用户交互每一次真实项目执行每一次失败和修正都可能成为下一轮能力提升的材料。所以Dwarkesh 所谓的「下一代训练范式」不是简单地说模型要更大、数据要更多、RL 要更强。它真正指向的是AI 从发布前训练走向发布后学习从人类数据走向环境经验从上下文里的临时适应走向权重里的长期能力。未来最重要的 AI 训练数据可能不再只是互联网上已有的文本也不只是实验室里构造好的可验证任务而是 AI 在真实世界里完成真实任务时自己积累出来的经验。