Transformer论文诞生与八子传奇2017年夏天在谷歌大脑Google Brain一间平常的办公室里八个年轻人敲完了论文《Attention Is All You Need》的最后一个字符。当时几乎没人意识到这篇论文会在接下来几年引爆万亿美元的AI革命。用卢卡斯·凯泽Łukasz Kaiser的话说“ 对我们来说那不过是办公室里极其普通的一天just another day in the office。 ”这八位作者后来成为了硅谷历史上最传奇的“Transformer八子”。如今的研究与思考将近十年后的今天身为OpenAI资深科学家的卢卡斯每天用Cursor来协助研究。他让AI做的第一件事是花两天时间完美复现他十五年前因丢源码而无法运行的学术论文。他坦言“ 我们其实根本还没有参透 ‘学习’ 本身的真正奥秘。 ”在他眼里当下行业陷入奇怪的盲目狂热。大模型像低效学习者要吞噬万亿级语料、穷尽错误表象规律才被动“理解”底层概念这与人类学习方式背道而驰也让当前的Scaling Law撞上效率冰山。对话要点速览去年卢卡斯与CSDN高级副总裁李建忠对谈时指出“推理模型目前仅相当于极早期的RNN阶段”。一年过去大模型预训练放缓行业转向Agent落地和工程化探索印证了他的“冷思考”。对话要点如下大语言模型能学会概念但要穷尽其他可能用“外星人”式思维泛化且无法觉察是否走进死胡同。随着更多人将系统融入工作积累真实人类工作流数据若将强化学习应用其中或许带来惊喜。AI行业会经历技术海啸要押注代表“明天”的趋势。OpenAI核心力量被ChatGPT牵制时Anthropic专注“代码”战场筑起护城河。泛化问题探讨主持人以“泛化”开场询问卢卡斯对单靠推理实现泛化的看法有无变化。卢卡斯表示Transformer结合推理和智能体能力惊人但与人类仍有差距我们直觉认为它应更聪明能用更少数据泛化。大语言模型需穷尽所有可能才理解底层逻辑与人类学习方式不同。目前虽有直觉认为存在其他高效泛化机制但捕捉时又会消失Transformer和寻找替代方案的路线都在成长不少实验室探寻“后Transformer时代”新架构谁能胜出尚不确定。新兴实验室探索原因主持人询问新兴实验室探索替代方案的原因卢卡斯认为很大程度是直觉虽氛围可能在派对和闲聊中发酵但也包含本质内容。杨立昆多年前就指出模型未真正模仿人类大脑人类能用少数据做复杂事情模型缺失底层核心能力存在未发掘的科学规律。反方认为模型未针对“小数据训练”优化有大量数据可用。目前难以给出科学结论但直觉让我们觉得机器学习有未知领地待开发。Transformer的魅力与局限Transformer推理能力能解决前沿数学问题让卢卡斯惊叹但他认为我们未参透“学习”奥秘模型学习需大量数据和算力距终极真理还差一步这有待时间验证。数据瓶颈与挑战有人认为模型与人类不同也无妨有海量数据且方法有效就行但有些领域数据匮乏如新药研发。卢卡斯认为所有瓶颈将演变成数据受限问题物理世界数据扩展效率低如Waymo自动驾驶汽车无法将城市施工区经验泛化到高速公路施工区而人类不会有此困惑。Transformer改进方向主持人询问能否通过改进Transformer解决问题卢卡斯表示机器学习研究方向广可能需调整架构、数据、损失函数或优化过程。Transformer伟大但需与其他技术配合。他从循环神经网络RNN开始研究认为循环机制有逻辑美感推理能力让其重回舞台中央。一些循环模型在测试中表现亮眼“后Transformer架构”尝试将循环机制与大语言模型融合值得期待。智能体提升工作效率今年智能体爆发卢卡斯认为这是他从事机器学习研究二十年来工作方式最大的变革。他用Cursor复现老论文效率提升5到10倍还能并行实验。他认为使用智能体让他对研究项目底层掌控力更高研究更享受。AI达到研究员助理水平情况主持人询问AI达到研究员助理水平的情况卢卡斯认为Cursor表现接近实习生但需紧盯产出目前未达到独立研究员高度。实现突破的可行路径主持人询问实现突破的路径卢卡斯回顾自己对“长上下文”和“记忆机制”的研究认为grep等工具是长上下文的解法加入少量强化学习如Cursor的上下文压缩能力就很出色。对于AI能否进化为独立研究员有人悲观认为需新架构有人乐观认为收集交互数据训练可让AI表现像学者。方法未奏效的原因主持人询问方法未奏效的原因卢卡斯认为大家在该方向投入心血不足真正的“Cursor时代”从去年圣诞节开始系统蜕变原因复杂难以归结为单一因素。目前大家忙于商业化推广没时间进行元层面理论解构而人类学习研究方式或许能给机器学习启示。强化学习在不可验证领域的进展主持人询问强化学习在不可验证领域的进展及下一个突破领域卢卡斯认为在法律、医学等领域已取得不错进展可验证性是渐变的大模型在主观艺术领域也能捕捉细节但缺乏“品味”。可通过收集人类喜好提升模型品味但目前强化学习范式存在补漏洞的循环若有像人类大脑的核心学习机制更好。强化学习的障碍与成本主持人询问是否有强化学习无法逾越的鸿沟卢卡斯认为目前无绝对障碍但要考虑商业和经济成本现有技术路径需昂贵的闭源基座模型微调成本高大家期待模型更自主解决问题。大模型的通用泛化能力主持人询问大模型在强化学习维度能否自发涌现跨领域通用泛化能力卢卡斯表示已有迹象但边界比预期窄模型泛化曲线呈“锯齿状”与人类泛化常理错位使用时需保持警惕。应用型公司的抉择主持人询问应用型公司的抉择卢卡斯认为强大的基座模型能让应用开发更顺利虽小模型有进步但复杂问题仍需大模型不过大模型训练和推理成本高。硬件对算法的影响主持人询问硬件对算法的影响卢卡斯表示硬件性能升级体现在FLOPs和内存访问带宽上如今硬件门槛降低释放了科研人员创造力让科研更便捷“硬件架构跟不上科研思路”的瓶颈在消融。大众化科研的未来主持人询问大众化科研能否延续卢卡斯表示取决于心情乐观时认为科学史证明优美思想诞生于纯粹研究行业实验室生态多元小尺度研究也能有前沿成果虽不是所有灵感都能成功但研究起点已提升。多模态模型的发展主持人询问多模态模型的发展卢卡斯认为大家正在取得突破解法可能指向JEPA方向现有模型机制未触及人类交互学习核心行业涌现新架构思路但目前缺乏支持“并行吸收”的革命性架构升级。OpenAI的抉择与发展主持人询问OpenAI的关键抉择卢卡斯表示任职期间OpenAI决定全力押注“推理”虽初期模型有问题但最终取得领先优势。他希望OpenAI等实验室保持魄力拥抱未来。新兴实验室的优势与挑战主持人提及新兴实验室卢卡斯认为其有合理性但离开主力实验室会面临显卡采购问题行业生态多元健康。目前AI技术红利未榨干外界对AI发展看法有误代码智能体是AGI雏形。代码产品的竞争关键主持人询问代码产品竞争关键卢卡斯认为关键是跨越到其他工作领域Anthropic让Claude承载跨界愿景。说服大众建立信任的问题主持人询问如何说服大众建立信任卢卡斯认为Anthropic选择专注“代码”战场是明智战略AI行业变化快要押注未来趋势。平衡当下与未来的关系主持人询问如何平衡当下业务与未来探索卢卡斯认为取决于团队基因、体量、资金和战略眼光Google多线布局有优势也有不足。Google的追赶情况主持人询问Google的追赶情况卢卡斯认为在常规聊天对话上已齐头并进甚至超越但在代码项目上还有差距多线布局有防护网但难获“首发夺魁”成就。开源与闭源模型的差距主持人询问开源与闭源模型差距卢卡斯认为目前模型体量决定实力上限蒸馏版与完整版有差距但开源生态有支持闭源实验室也会开拓前沿两者相互牵制是行业主旋律。对AI看法的改变主持人询问对AI看法的改变卢卡斯表示没想到这么快拥有媲美人类助理的代码生成实力这改变了他的科研范式。对安全风险的担忧主持人询问对安全风险的担忧卢卡斯认为应关注现实安全隐患也不能忽视“存在性风险”要捍卫核心控制权目前未感受到针对个体的实质性威胁。Andrej Karpathy与Anthropic的合作主持人询问Andrej Karpathy与Anthropic的合作卢卡斯表示开发者助手有学术价值但寻找“后Transformer”突破艰难虽乐见其成但要理性看待。是否创业的考虑主持人询问是否创业卢卡斯表示对自己选择的道路欣慰自己是迷恋底层技术的极客尊重创业者。给读者的寄语主持人请卢卡斯给读者推荐内容或寄语卢卡斯鼓励研究人员勇敢检验奇思妙想相互学习探索全新概念不要盲从主流范式利用好时代机遇探索未知荒野。