Sora 死后生成式视频路线已到头。编译 | 王启隆出品丨AI 科技大本营IDrgznai1002026 年 3 月在新德里的 AI Alliance Global Leadership Reception 上Christopher Nguyen 邀请到杨立昆聊了一个对未来影响深远的话题今天的 AI 缺了一块很大的东西而他想讨论的不只是这块拼图究竟是什么更是 LeCun 正在推进的JEPA是否就是那块缺失的答案。一如既往LeCun 再次表达了他对 LLM 路线的怀疑但他这次把另一条技术叙事讲得足够完整如果真实世界的大部分细节本来就不可预测那么 AI 要学的可能就不是如何重建一切而是如何找到那些真正可预测、也真正有用的抽象表示。接下来的对话里他系统解释了为什么文本可以靠离散 token 预测一路推高能力视频和真实世界却不行为什么重建式路线会在现实信号上遇到根本限制以及为什么他相信真正通向下一代 AI 的不是把现有生成式方法再往上堆一层而是去学习抽象表示并在表示空间里做预测。要点速览LeCun 认为LLM 的上限不只是能力问题而是“下一 token 预测”这条路线本身不适合真实世界。AI 真正缺的不是更大的语言模型而是能学习抽象表示、预测后果并支持规划的世界模型。JEPA 的关键不是重建全部细节而是在表示空间里抓住那些真正可预测的结构。在图像和视频表示学习上联合嵌入方法长期优于重建式方法这在他看来已经是明确的经验结论。这也是他离开 Meta、转向 AMI Labs 的原因之一LLM 已经吸走了太多资源而 JEPA 更重要的应用在真实世界。接下来是这场对话的精编翻译。AI 今天真正缺的不是更多 token而是世界模型主持人在开始之前我先把这场对话的议程说清楚。第一件事比较容易说服大家今天的 AI确实缺了一块非常大的东西。第二件事更难我希望这场谈话至少能开始让大家相信Yann 正在做的事情可能就是那块缺失拼图的答案。如果要用最容易理解的方式来解释你会怎么向大家说明这两件事AI 到底缺了什么为什么你认为 JEPA 是答案Yann LeCun这个问题其实分成两个部分。第一缺的到底是什么答案是世界模型。第二什么是世界模型我们又该怎么把它建出来过去大概 15 年AI 经历了两次革命。一次是深度学习另一次当然就是 LLM本质上是 GPT 这类架构推起来的。GPT 真正重要的不是 transformer 本身而是它背后的训练思想给系统一个输入序列再训练它把这个输入序列复现到输出上。由于这个架构是严格因果的它只能看到当前位置左边的符号所以它本质上是在做“下一 token 预测”也就是下一个符号预测。这是一种自监督学习。你并不是在为某个具体任务训练它而是在让它学习序列中不同符号之间的依赖关系。最开始其实也有一些架构尝试在任意方向上做预测但最后真正能扩展起来的是只做时间上向未来的预测也就是 GPT 这条路。这条路为什么对文本有效因为文本是离散的token 的种类也是有限的。你永远不能确定某串词后面一定跟哪个词但因为可能的 token 数量有限你可以对每一种可能性打分得到一个在十万级词表上的概率分布。问题是这一套方法一旦离开文本就会遇到根本困难。我至少花了 15 年在研究怎么把自监督学习这套想法用到视频上。也就是说训练一个系统去预测视频接下来会发生什么。但最后你会发现这件事根本做不通。比如我拍一段这个房间的视频镜头慢慢转过去然后在某一刻停住。我让系统预测接下来的视频。它当然可以猜到一些大概的东西比如这是一个房间房间里坐着人前面有桌子。但它绝不可能预测出你们每个人具体长什么样哪些座位有人地毯的纹理是什么吊灯的反光是什么样。现实世界里我们观察到的大部分细节本来就是不可预测的。如果你硬逼系统去预测这些细节唯一的办法就是再塞给它额外信息让它有能力把这些细节复原出来。这个额外信息就是潜变量。但问题在于这个潜变量最后往往承载了绝大部分预测所需的信息于是整件事就失效了。真实世界本来就是这样。我们当然可以预测如果把门窗都关上再把这个房间里的空气加热温度和压强会怎样变化因为有 PVnRT。但你不可能去预测每一个空气分子的运动轨迹。分子太多了不可能逐一模拟。所以试图预测数据中的所有细节——不管是视频、分子动力学还是别的连续世界信号——这个想法本身就是错的。真正可行的做法是换一种架构不要试图重建输入里的每一个细节而是去学习一种抽象表示并在这个抽象表示空间里做预测。这就是 JEPA也就是联合嵌入预测架构。JEPA 的意思是你训练系统去找到一种尽可能保留输入信息、但同时又具有可预测性的表示。比如在这个房间里温度和压强是可以互相预测的空气分子的具体位置和速度则不行。物理学家早就把这件事做成了体系为了做预测他们必须忽略大量细节而这些被忽略掉的东西叫作熵。你去模拟机翼周围的空气流动也不是去追踪每一个空气分子而是把空气抽象成速度、密度、温度然后解 Navier–Stokes 方程。我们做建模一直都是这样。量子场太复杂于是我们发明了粒子粒子太多于是我们发明了原子再往上有分子、蛋白质、细胞、生物体、生态系统、社会。每一个层级都是为了在忽略下层细节的情况下保留足够的结构来做预测。从这个意义上说JEPA 其实是一个非常简单的想法不要去重建信号中的一切而要去寻找一种可以支持预测的抽象表示。如果我把人类已经收集到的所有木星数据都丢给你这些数据本身并不会自动带来预测能力。比如我问你木星十年后会在哪你真正需要的可能只有六个数字三个位置三个速度。其他大量细节可能都不重要。它们不是没价值只是对这个问题没帮助。如果你用这种方式训练出系统而且这种系统不再是生成式的也不再是传统意义上概率式的——虽然它仍然可以处理不确定性——那你就有可能真正构建面向现实世界的 AI。再进一步如果这个系统学到的不是单纯时间预测而是带动作条件的预测在时间 t 的世界状态下假设采取某个行动那么 t1 的世界状态会是什么。那它就成了真正的世界模型。你可以用它来规划规划一串最优动作以达成某个目标函数下的结果。大家都在讲智能体系统但其实没有人真正知道怎么把它们建得可靠。至少在我看来单靠 LLM 很难做到因为 LLM 并没有能力预测自己行动的后果。要做到这一点你需要的是世界模型。为什么 LeCun 认为生成式路线有根本上限主持人这套想法在直觉上很容易让人认同。我们感知世界的时候也不是在脑子里重建声音、像素和全部细节而是形成某种表示。那问题就来了为什么不能继续扩大另一条路线为什么不能靠更多算力、更多数据把生成式方法继续推上去这到底是规模问题还是更本质的方法问题Yann LeCun我认为这是生成式方法本身的根本限制。只要你试图重建信号里的全部细节这条路就是有问题的。第二个限制是为了让这些生成式模型工作你通常还得先把信号离散化也就是 token 化把它变成离散符号序列。你当然可以尝试把视频也这样处理但效果并不好。在计算机视觉里我们其实已经积累了很多年经验。要用自监督的方式学图像表示大体上有两种路线。第一种是重建拿一张图像做一些破坏比如遮住一部分、模糊它、改颜色再训练一个大网络去从这个被破坏的版本里重建原图。这在自然语言处理中对应的是 BERT在视觉里则有遮罩图像建模、遮罩自编码器这些方法。它们不是完全没用也能学到一些表示再拿去做下游监督任务。但还有第二种路线就是联合嵌入。你把原图和被破坏或变换后的图都送进编码器里训练它们在表示空间中互相可预测。换句话说你不要求它把像素重建回来而要求它学会一种更高层的表示。这么多年的实验结论其实很明确联合嵌入几乎每次都比重建更强。不管是 VAE、VQ-VAE、稀疏自编码器还是别的重建方法都没有真正比过这些不试图重建的方式。对我来说这是一个非常强的经验信号对于自然信号来说重建本身就是个坏主意。我其实已经和这个想法生活了 40 年。1987 年我的博士论文里就在做自编码器甚至是去噪自编码器。1986 年我就在训练这类东西。它们当然“有点效果”但远远谈不上真正可行。后来 Geoff Hinton 也一样对这类方法的表现并不满意。最后我们看到的结论是对于自然信号学习表示的最好办法不是重建而是不重建。最近几年这种联合嵌入方法再用到视频上也出现了非常好的结果。从 collapse 到 DINO这条路为什么现在才开始真正成熟主持人但怀疑者会问一个问题在表示空间里学习当然听起来很好可它很容易塌缩落到 trivial solution平凡解线性系统的解为零向量的情况。那最近这几年到底发生了什么让你觉得这条路真的可以往前走了Yann LeCun这个问题其实很早就出现了。1993 年我在 Bell Labs 的时候就有人找我们做签名验证。他们的需求很具体信用卡磁条上只有 80 字节空间能不能把签名的“gist”编码进这 80 字节里然后比较两次签名是否属于同一个人。当时我的想法是用后来被叫作孪生神经网络的结构给它两个同一个人的签名分别过同一个网络再要求它们输出相同的表示。问题是如果你只这么做系统最简单的解法就是忽略输入永远输出一个常数表示这就是塌缩。后来我们想到的办法就是今天所谓对比式方法除了给它同一个人的两个签名也给它不同人的签名或者真实签名和伪造签名然后要求这些表示彼此拉开。这在签名任务上有效后来在 ImageNet 这种对象识别任务上也有效但它不太容易扩展学到的表示维度通常比较低。所以很长一段时间里我并不觉得这会是自监督学习的最终答案。直到大概五年前我的一个博士后 Stéphane Deny以及其他一些相关工作开始用另外一种方法来避免塌缩。它们不是对比式方法而是通过最大化某种信息量迫使编码器输出的信息保持“有信息”从而防止系统直接忽略输入。这一条路后来发展成了 Barlow Twins之后又有 VICReg再往后还有基于蒸馏的方法。与此同时Meta 那边也有 DINO、DINOv2、DINOv3。这些结果让事情变得很清楚我们确实已经有办法避免塌缩而且这些办法在图像表示学习上非常有效。所以我后来才真正觉得这就是未来应该走的方向。当然这里面的理论解释还没有完全建立起来。为什么这些防塌缩方法能这么有效我们其实还没有彻底理解。LLM 已经把房间里的空气吸光了主持人过去 FAIR 一直是很好的研究环境。扎克伯格也很希望你留下来。那为什么你最后还是决定离开 Meta去做 AMI Labs在外面到底能做什么是在 Meta 里面做不了的Yann LeCun至少到去年之前FAIR 还是一个非常适合做研究的地方。但过去这一年Meta 的重心已经明显转向更短期的目标了本质上就是追赶整个 LLM 产业。这就导致那些更长期、更激进、也更偏离当前主流范式的项目被放到了更次要的位置。当一家整个公司都在往某个范式上投入数千亿美元而你这个 Chief AI Scientist 又到处说单靠放大 LLM 永远不可能走到人类级 AI你自然不会特别受欢迎。当然Mark Zuckerberg 和 Andrew Bosworth 其实都对我在做的项目非常支持。我们当时在 Meta 内部把这个项目叫作 AMIAdvanced Machine Intelligence后来这也成了新公司的名字。但我后来还是去跟 Mark 讲这个方向在公司内部从政治上已经很难继续推了。因为LLM 基本上已经把房间里的空气都吸光了。这是第一点。第二点是这些 JEPA 想法真正重要的应用很多都在 Meta 根本不会碰的地方工业流程控制、机器人、现实世界系统还有很多其他应用。Meta 的核心业务还是连接人与人而不是这些现实世界问题。所以一方面是公司内部模式发生了变化另一方面是外部应用空间太大再加上融资条件也成熟了JEPA 的结果又开始真正跑出来了这时候离开就变成了一件顺理成章的事。从卫星到经济系统世界模型真正要去的地方在哪里主持人我们其实一直在用 Barlow Twins 和 JEPA 训练卫星模型效果非常好也很简单。所以我完全相信你说的抽象表示这条路。但现在的问题是我们训练出了一个很漂亮的模型它对太空这个尺度有效可它和其他尺度上的 JEPA 模型之间并没有真正连接起来。你觉得未来这些模型会不会形成某种分层 JEPA最后在不同尺度之间连起来Yann LeCun我觉得最终你确实需要某种分层 JEPA。低层表示负责更短时、更细节的预测但这些预测通常会很快偏离现实。所以你还需要更高层的表示去做更长时间、更大尺度的预测。高层级的一个特点就是它能在更大的时间尺度和空间尺度上做预测。这其实也和物理里的很多思想相通比如重整化群理论也和卷积网络里的池化有某种相似性。而且不同物理现象之间本来就共享很多共性。我觉得这给了我们一种可能建出某种更通用的模型让一个领域里形成的“直觉”能迁移到另一个领域里去。比如你如果真的理解流体动力学哪怕只是高层的直觉你既可以用它理解涡喷发动机也可以用它理解机翼也可以用它理解帆的受力。我们人类其实一直就是这么工作的。甚至猫也是。你的猫对于自己的身体动力学、摩擦、跳跃这些事理解得可能比任何你能写出来的方程都好。它知道什么时候能跳上去怎么连续借力怎么控制身体这是一种非常高层但非常有效的世界模型。主持人我们会前还聊到另一个问题就是经济模型。如果从政策、预测、经济这些角度看经济系统里有公司、个人、政府、组织这些“微观主体”又有国家、区域、产业这样的“宏观结构”。你怎么理解这种从微观到宏观的问题Yann LeCun不管是在物理、经济学、社会科学还是工程里最难的问题之一都是怎么从微观过渡到中观再到宏观。在物理里这件事其实最近几年才真正开始有一些理论上的突破。比如怎么从分子碰撞推到 Boltzmann 方程再怎么从 Boltzmann 方程走到 Navier–Stokes 方程。再往上你又会遇到更高层的问题比如给定一个特定翼型和特定速度怎么直接预测升力和阻力。其实现在已经有人在做这类事情先用 Navier–Stokes 方程或者计算流体动力学生成训练数据再训练神经网络去直接预测升力和阻力。这样得到的是一个可微分模型你甚至可以直接对形状反传梯度去优化形状本身。类似例子在材料科学、宇宙学模拟等很多地方都已经出现了。经济学会更难因为你面对的不是遵守牛顿定律的分子而是大量在有限信息下做半理性决策的人和组织。这样形成的涌现行为本来就极难建模。所以在我看来这类问题最后很可能还是要靠一种数据驱动的方法也就是类似 JEPA 的路径去找到好的抽象。宏观经济学其实也一直在做这件事只不过是用更高层的抽象把微观细节进一步压掉。我觉得这种方法在经济学里会有很多应用在金融里可能也有应用。但金融的问题是大部分数据本质上都是噪音信噪比非常低。原视频链接youtu.be/wDeXfFQcJxk投稿或寻求报道zhanghycsdn.net推荐阅读GTC 巅峰对话 Jeff Dean x Bill Dally预训练范式已死、延迟瓶颈不在计算、谈透 AI 五年未来 | GTC 2026黄仁勋对话 10 位开源 AI 掌门人未来算力将向后训练倾斜OpenClaw 开启了现代计算机的新想象GTC 2026硅谷直击黄仁勋入局龙虾大战宣告 SaaS 已死推理算力需求暴涨万倍48 小时与 50 位大厂技术决策者共探 AI 落地真路径由 CSDN奇点智能研究院联合举办的「全球机器学习技术大会」正式升级为「奇点智能技术大会」。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块特邀来自BAT、京东、微软、小红书、美团等头部企业的 50 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴更是决策者把握 2026 AI 拐点的战略机会。