阿里林俊旸离职后首发长文:AI从“推理思维“迈向“智能体思维“的五大挑战
阿里林俊旸离职后首发长文AI从推理思维迈向智能体思维的五大挑战32岁阿里最年轻的P10一手将千问做到全球下载量超10亿次。林俊旸在离职后首篇万字长文中坦承我们没有全做对并指出AI正从会说话转向会做事的关键临界点。引言一个时代的转折点2026年3月前阿里千问技术负责人林俊旸在离职后发表了题为《From “Reasoning” Thinking to “Agentic” Thinking》的长文。这不是一篇普通的离职感言而是对AI发展路线的深刻反思。他的核心判断是推理思维阶段2024-2025的使命已经完成AI正在进入智能体思维的新阶段。这两个阶段的本质区别是什么推理思维先想后答 → 评判答案对错 智能体思维边行动边思考 → 关注任务能否完成这个转变看似微妙实则深刻。它意味着AI不再只是一个答题机器而是要成为一个能在真实世界中完成复杂任务的行动者。第一阶段推理思维完成了什么使命在深入讨论智能体思维之前我们需要理解推理思维阶段究竟解决了什么问题。o1 和 R1 的核心贡献OpenAI 的 o1 和 DeepSeek-R1 做了一件关键的事证明了思考可以成为模型的一等公民能力——一种可以专门训练、并向用户开放的能力。这个阶段教会了整个行业一个关键认知要在语言模型上规模化强化学习需要确定性强、可规模化的反馈信号。为什么数学、代码、逻辑成为强化学习的主战场因为这些领域的奖励信号远比让人类标注员觉得这个回答还不错强得多。通用偏好监督看起来合理 ≈ 对了 可验证领域答案对错 明确信号 ✓基础设施的重要性被低估了一旦模型开始进行更长的推理链条强化学习就不再是监督微调SFT的轻量附加模块它变成了一个重工业级的系统工程大规模的轨迹采样rollout高吞吐量的答案验证稳定的策略迭代高效的采样流程推理模型的崛起表面看是算法突破底下看是基础设施的胜利。但问题来了2025年上半年行业把大部分精力都花在了怎么让模型想得更多上。这个方向对吗林俊旸的回答是方向对了但不完整。核心转变智能体思维的五大挑战推理模型输出完答案就结束了。但智能体要在思考和行动之间不断切换根据真实世界的反馈持续修正计划。林俊旸列出了智能体思维与推理思维的关键区别我们可以将其归纳为五大核心挑战挑战一动态切换思考与行动推理模型想完再答一次性输出。智能体需要判断何时停止思考、开始行动。这是第一个本质差异。想太多会错过行动窗口想太少会犯错。传统模型思考 → 思考 → 思考 → 输出答案 ✓ 智能体 思考 → 行动 → 观察反馈 → 思考 → 行动 → ...这不仅仅是行为模式的改变而是需要模型学会一种全新的节奏感。它需要知道什么时候信息足够了可以行动什么时候信息不足需要继续收集什么时候行动失败了需要回退重新规划技术难点这需要一个行动决策器它本身就是一个复杂的规划问题。挑战二实时工具调用的动态规划推理模型可能调用工具但调用是静态的。智能体选择调用哪个工具、以什么顺序——这是一个动态规划问题。这不是简单的 function call。智能体需要理解工具能力边界每个工具能做什么、不能做什么预测调用后果调用工具 A 之后会发生什么动态调整策略如果工具 A 失败了备选方案是什么管理依赖关系工具 B 需要工具 A 的输出作为输入静态工具调用用户说查天气 → 调用天气API → 返回结果 智能体工具调用任务 → 分析需要哪些工具 → 规划调用顺序 → 执行 → 观察结果 → 可能需要调整 → 继续执行...技术难点这需要一个工具编排引擎它要处理的是图论问题而非简单的函数映射。挑战三消化不完整信息推理模型假设输入是完整的、干净的。智能体真实世界不会给你完美反馈。这是智能体思维最接地气的挑战。真实环境充满噪声传感器数据可能有误差API 返回可能不完整用户描述可能模糊甚至矛盾系统状态可能部分可观测理想世界完整信息 → 清晰推理 → 正确答案 ✓ 真实世界部分信息 → 噪声干扰 → 模糊反馈 → ???智能体需要学会信息融合从多个不完整来源拼凑完整图景不确定性管理在信息不足时做出合理决策噪声过滤识别并忽略无关或错误的信息技术难点这需要一个不确定性处理器它要处理的是概率论问题而非确定性的逻辑推理。挑战四失败后修正而非重来推理模型答错了就重答成本很低。智能体行动有代价失败后需要修正不能推倒重来。这是智能体思维最现实的挑战。在真实世界中执行操作可能消耗时间、金钱、资源部分操作不可逆系统状态已经改变其他智能体可能已经响应推理模型答案错误 → 清空状态 → 重新推理 → 新答案 智能体 执行失败 → 保留已执行部分 → 分析失败原因 → 调整计划 → 继续执行 → ...智能体需要学会断点续传在失败点恢复而非从头开始根因分析理解失败的真实原因计划修复在原有计划基础上调整而非重新规划技术难点这需要一个状态修复器它要处理的是增量更新问题而非全量重建。挑战五保持多轮交互连贯性推理模型单次交互上下文相对简单。智能体跨越多轮对话和多次工具调用保持逻辑一致性。这是智能体思维最长期的挑战。一个复杂任务可能涉及数十次工具调用多轮人机交互跨越数小时甚至数天多个智能体协作单次交互问题 → 答案上下文 ≈ 问题本身 多轮交互任务 → 子任务1 → 反馈 → 子任务2 → 反馈 → ... → 用户澄清 → 子任务1修订 → ... → 最终完成智能体需要学会长期记忆管理记住之前做了什么、为什么这么做一致性检查新的行动与之前的决策保持一致上下文压缩在有限上下文中保留关键信息技术难点这需要一个长期记忆管理器它要处理的是记忆检索和压缩问题。五大挑战的共性从静态到动态观察这五大挑战我们会发现一个共同的主题挑战推理思维假设智能体现实切换思考行动静态推理链动态决策过程工具调用静态函数映射动态规划问题信息处理完整干净输入不完整有噪声失败处理可以重来必须增量修正交互连贯单次上下文长期状态管理核心转变从静态推理到动态交互。这不是简单的功能增强而是思维范式的根本改变。技术突破点智能体时代需要什么林俊旸指出未来的竞争力不只来自更好的模型还来自1. 更好的环境设计智能体需要一个稳定、可控、可观测的执行环境。这包括环境模拟器在真实执行前预演行动后果沙箱机制限制智能体的影响范围状态追踪实时记录环境变化2. 更强的 Harness 工程“Harness” 这个词来自软件测试指运行测试所需的基础设施。智能体时代harness 工程变得至关重要轨迹采样rollout基础设施大规模模拟智能体行为高吞吐量验证快速判断行动结果是否正确稳定采样确保训练数据的质量和多样性3. 多智能体编排复杂任务可能需要多个智能体协作分工机制智能体各司其职通信协议智能体之间如何交换信息冲突解决当智能体目标冲突时如何协调4. 稳健的评估器评估器是智能体训练的核心。它需要延迟反馈处理很多任务的成功/失败不会立即显现部分信用分配在复杂任务中确定每个行动的贡献泛化能力评估器本身不能过拟合千问的反思合并思考与指令模式的教训林俊旸在文中罕见地坦白了千问团队的探索与教训。最初的雄心2025年初千问团队有一个雄心勃勃的构想理想的系统应当统一思考模式和指令模式。它应支持可调节的推理力度类似低/中/高推理档位的设定。Qwen3 是这个方向上最清晰的公开尝试之一引入了混合思维模式。难题在数据不在模型人们谈到合并思考和指令模式时往往首先想到的是模型侧的兼容性。但更深层的问题是两种模式的数据分布和行为目标有本质差异。强指令模型追求简洁直接、格式规范、低延迟 强思考模型追求深度推理、探索替代路径、保留思考余量这两种性格天然打架。如果合并数据未经精心策划思考行为变得嘈杂、臃肿或不够果断指令行为变得不够干脆、不够可靠还更贵最终的选择2025年下半年千问团队发布了独立的 Instruct 和 Thinking 版本。林俊旸的总结是真正成功的合并需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度理想情况下还能自适应地做出选择。这指向了一个方向算力分配的连续策略而非想/不想的二元开关。Anthropic 的启示思考应该服务于行动林俊旸特别提到了 Anthropic 的做法Anthropic 的发展轨迹暗示了一种更有纪律的视角思考应当由目标工作负载来驱动。Claude 3.7 和 Claude 4 的关键设计集成推理而非独立模型用户可控的思维预算在思考过程中就能动手用工具关键突破把编程、长时间运行的任务和智能体工作流摆到最优先位置这暗示了一个重要观点推理链更长不等于模型更聪明。很多时候过多的可见推理恰恰是算力分配低效的信号。如果一个模型试图用同样啰嗦的方式对所有事情进行推理它可能正在失败于三件事该优先处理什么优先级判断该压缩掉什么信息浓缩该在什么时候停止想而开始做行动决策结语从训练模型到训练系统林俊旸用一句话总结了这个转变从想更久到为了行动而想。这不仅仅是技术路线的调整而是对 AI 本质的重新理解。推理思维时代我们在教 AI如何思考。智能体思维时代我们在教 AI如何做事。前者关注答案的正确性后者关注任务的完成度。前者可以在沙盒中验证后者必须在真实世界中检验。未来的竞争力将不只来自更好的模型还来自更好的环境设计更强的 harness 工程多智能体之间的编排评估器的稳健程度从训练模型到训练智能体再到训练系统。这是 AI 从会说话正式转向会做事的关键临界点。参考链接林俊旸原文From “Reasoning” Thinking to “Agentic” Thinking量子位报道林俊旸离职后首次发声复盘千问的弯路指出AI的新路新浪科技编译林俊旸离职后首发长文反思千问得失预判 AI 下半场需要「智能体思维」