henry 发自 凹非寺量子位 | 公众号 QbitAIVLA已死世界动作模型当立。遥操已死人类的传感器数据长存。在今年的红杉AI Ascent 2026上Jim Fan只用了20分钟就给机器人行业连开了两场“葬礼”。第一场送别过去三年几乎统治具身智能的VLA第二场送别所有人以为还能再吃很多年的遥操作。作为现任英伟达机器人方向负责人Jim Fan去年还在同一张讲台上讲机器人如何通过测试。今年他已经开始讨论——旧范式怎么死新范式怎么立。而这一新范式在Jim眼里很大程度上得靠抄LLM的作业。预训练模拟下一个世界状态对应LLM的next token prediction动作微调校准对真实机器人有价值的部分对应supervised finetuning最后由强化学习完成最后一里路。过去一段时间英伟达陆续放出EgoScale、DreamDojo、Dream Zero等一系列工作几乎以一己之力定义了具身智能2026年的走向。而在这场名叫Robotics: Endgame机器人联盟终局之战的演讲中则汇聚了Jim Fan关于VLA、世界模型、遥操作、UMI、egocentric、仿真、Scaling Law等机器人领域思考的最新沉淀十分值得一看。以下是演讲核心观点摘录VLA已死WAM将作为新的预训练范式。未来一到两年遥操占比会降到几乎可以忽略不计。机器人的「主食」会变成第一视角人类视频整个数据范式转向Sensorized Human Data人类传感器数据。人类第一视角视频成功启示了机器人领域的scaling law英伟达将彻底押注第一视角人类视频。算力环境数据。机器人科技树只剩三个成就待解锁物理图灵测试2-3年内、Physical API、Physical Auto Research2040年有望全部点亮。以下为演讲全文。为方便阅读做了适当的润色与删减机器人联盟终局之战2016年的一个夏日我就在我们现在坐的办公室里。有一个身穿亮皮夹克、手臂粗壮的家伙举着一个大金属托盘。他在上面写道致Elon和OpenAI团队致计算与人类的未来我将向你们展示世界上第一台DGX1。那是我第一次见到黄仁勋。和任何优秀的实习生一样我迫不及待地排队签上自己的名字。你能找到吗我的名字在这里还有Andrej Karpathy的名字。那时我完全不知道自己将要经历什么。而接下来的事情没人能比Ilya本人描述得更好如果你相信深度学习那它也会相信你。果然他们对深度学习的信念感染了我们每一个人。三步函数六年时间这就是我们到今天的全部历程。第一步2020年GPT-3预训练。预测下一个词元next token prediction主要是学习语法规则理解语言结构模拟思想、代码和字符串的展开方式。第二步2022年InstructGPT指令GPT通过监督微调对模拟进行校准使其能够执行实际任务或使用强化学习超越模仿学习。第三步2026年自动化研究autoresearch加速整个循环超越人类能力。正如Andrej所说所有付出都在向最终目标冲刺对于LMS语言模型系统来说他们正处于终局阶段。老实说我非常羡慕看Andrej的笑容就知道他有多开心。语言模型团队正在享受他们的巅峰时刻他们正在极速开发AGI通用人工智能并将路上的创造称之为“神话myhtos”。那为什么搞机器人的不能也享受这种乐趣呢作为自尊心强的科学家我复制了他们的思路并将它重新命名——“大平行Great Parallel”。我们不再模拟字符串而是模拟物理世界的下一个状态next physical world state然后通过动作微调action finetuning校准模拟中对真实机器人有价值的部分并让强化学习完成最后一里路。大平行就是复制语言模型的成功策略。打不过他们就加入。接下来的章节就到了——机器人联盟终局之战Robotics:The End Game。抱歉我忍不住开个小玩笑香蕉太有趣了感谢哈萨比斯。如何玩转终局归结为两点模型策略models trategy和数据策略data strategy。先看模型策略。过去三年视觉-语言-动作模型VisualLanguageActionModelsVLA占据主导Pi和Gr00t等模型也属于这一类。我们假设预训练由VLM视觉语言模型Visual Language Model完成然后在其上添加动作头action head。但实际上这些模型都是LVA语言视觉动作模型Language Visual Action大部分参数用于语言使语言成为核心其次是视觉和动作。在VLA里语言才是一等公民视觉和动作只能靠边站。设计上VLA更擅长编码知识和名词但在物理和动词方面表现不足有点「头重脚轻」。我最喜欢VLA原论文RT-2中的例子把可乐移动到泰勒·斯威夫特TaylorSwift的图片上。它从未见过她却能泛化但这并不是我们想要的预训练能力。那么第二条预训练范式是什么我们认为第二种预训练范式理应应该非常美丽但不幸的是它变成了AI视频垃圾AI Video Slop比如看猫咪在监控摄像头上弹班卓琴。这虽然表面上看很娱乐但没人认真对待它直到我们意识到这些视频模型实际上在内部学习模拟下一个世界状态。这是Veo3的一些例子模型自动学习了重力、浮力、光照、反射、折射等物理规律没有显式编码通过大规模预测下一团像素物理规律自己涌现了视觉规划也自然出现。Veo-3是如何解决这些物体的通过在像素空间前向模拟。特别注意右下角这是我最喜欢的例子。Veo3超聪明它能发现如果你没看几何就是可选的。我称之为“物理垃圾physics slop”。如何让这些世界模型有用我们通过动作微调将所有可能的未来状态的叠加superposition压缩到对真实机器人有价值的部分。于是就有了Dream Zero。Dream Zero是一种全新的策略模型。它会先“梦”到未来几秒钟里可能发生什么然后再据此做出动作。要知道机器人的运动控制本质上是一组高维、连续的信号。从某种意义上说它和像素并没有本质区别都可以被看作连续变化的数据流。所以我们可以像渲染视频一样同时把动作也渲染出来。Dream Zero能同时解码两个东西下一刻的世界状态以及下一步该执行的动作。也正因为如此它能够零样本zero-shot完成那些训练中从未见过的新任务、新动作。更有意思的是当机器人真正开始执行时我们甚至可以实时“看到”它正在想什么而且这种相关性非常紧密。如果视频预测是对的动作通常就是对的如果视频开始幻觉动作也往往会失败。所以也直到这里视觉和行动才第一次真正坐到了一张桌子上。我们后来用Dream Zero做了很多有趣的实验就让机器人在实验室里到处转然后往prompt输入框里随便打各种指令看看它会怎么做。当然Dream Zero现在还做不到把每个任务都100%稳定完成。不过它有点像GPT-2虽然未必每次都精准但它几乎总能先把动作的大致“形状”做对。Dream Zero是我们迈向机器人“开放式任务”和“开放词汇提示”open-ended, open-vocabulary prompting的第一步。我们把这类全新的模型称为World Action Models简称WAM——世界动作模型。所以此刻让我们一起为我们的老朋友VLA 默哀片刻。它们曾经很好地服务过我们。安息吧VLA。VLA已死WAM当立。而要实现WAM接下来要拼的就是下一代数据策略。画面里的这个人是Bill Dally正在我们实验室里亲自做遥操作。考虑到他的薪水我敢说这大概是我们整个数据集里成本最高的一条遥操作轨迹。过去三年机器人领域几乎被遥操所统治。那简直是遥操的黄金时代。各种VR头显、为低延迟串流做极致优化的系统、还有那些结构复杂、看起来像中世纪刑具一样的遥操作设备。整个行业砸了大量资金。也经受了大量痛苦。但问题是遥操的数据产能从物理上就有上限。理论上一台机器人一天最多也就24小时的数据。但说实话如果现实里每台机器人一天能稳定采到3小时就已经谢天谢地了。而且前提还是——机器人之神今天心情不错。因为这些家伙真的隔三差五就闹脾气机器人故障。那问题来了我们还能做得更好吗有人的答案是直接把机器人的手戴在你自己的手上。这套系统叫UMIUniversal Manipulation Interface通用操作接口。它的想法简单得近乎狡猾你把机器人穿在自己手上。你的手怎么动机器人就怎么动。与此同时把机器人其余身体部分统统从数据采集闭环里拿掉。换句话说直接用人类的手去采机器人需要的数据。在我看来UMI可能是机器人数据领域最伟大的论文之一。而它最终催生了两家独角兽公司。左边是Generalist团队成员把这个设计进一步优化。现在你可以直接把机械夹爪戴在自己的手上。右边则是Sunday做出的三指数据手套。而去年我们又往前迈了一步。我们设计出了一套外骨骼exoskeleton系统它和五指灵巧机器人手之间能够做到1:1映射。我们把它叫做DexUMI来看实际效果。左边是最传统也最快的数据采集方式人类直接完成操作永远是最快的。右边是遥操作。你会发现这有多难。画面里这位操作员是我们团队最熟练的PhD之一。即便如此他仍然得极其小心地对齐、校准。整个过程又慢又累。而且成功率也不高。中间就是我们的方案。你只需要戴上这套外骨骼直接完成动作数据就同步被采集下来。然后我们用这些数据训练机器人策略模型。而你现在看到的是一个完全自主执行的机器人策略。最关键的是它训练过程中使用的遥操数据是零。这意味着我们第一次打破了那个机器人领域的诅咒每台机器人每天最多只能采24小时数据。而且你看这些机器人有多开心。因为它们终于不用再亲自参与数据采集了。但问题来了这就是终点吗我们真的解决了机器人的scaling问题吗在场有人开Tesla或Waymo吗开车的时候其实你一直都在参与世界上最大的物理数据飞轮。更妙的是你甚至感觉不到。尤其是在Tesla FSD工作的时候数据上传是一个悄无声息、在后台自动完成的过程。但戴着UMI这种数据穿戴设备呢说实话还是太麻烦了。它依然是侵入式的。远没有每天开车去上班那样自然。所以我们需要一个属于机器人的FSD等价物。我们需要让数据采集彻底退出前台融入背景悄无声息地发生。只有这样我们才能真正捕捉到人类灵巧操作最完整的样子。不只是实验室。而是各行各业而是所有具备经济价值的劳动场景。基于此我们彻底押注在第一视角人类视频human egocentric videos。并且给这些视频加入精细的手部位置追踪高密度语言标注。我们把这套训练范式叫做EgoScale。在EgoScale中99.9%的训练数据全部来自人类第一视角视频。最终的结果是一个真正end-to-end的机器人策略模型。它能够直接从摄像头像素输入映射到拥有22个高自由度的灵巧机器人手。一句话就是从“看见”直接到“动手”。你现在看到的就是一个完全自主执行的机器人。在预训练阶段我们用EgoScale在2.1万小时的真实世界第一视角人类数据上进行预训练。没有使用任何机器人数据。在预训练过程中模型学习去预测手部关节位置和手腕姿态。到了动作微调阶段我们只额外采集了50小时的高精度数据手套数据以及4小时的遥操数据这甚至不到整个训练数据混合中的0.1%。而靠着EgoScale模型已经能够泛化到各种高度灵巧的任务。比如整理扑克牌、操作注射器、精准转移液体。说不定哪天家里的机器人护士真会因此出现。更有意思的是对于像折衬衫这种任务模型在测试阶段只需要一次示范就能学会全新的折叠策略。这篇论文里也许最令人兴奋的发现是我们第一次发现了“机器人灵巧性”的神经scaling law。它描述的是预训练时长与最优验证损失之间的关系。这个关系漂亮得惊人。它几乎是一条完美的log-linear对数线性曲线。距离语言模型第一次发现neural scaling law已经过去整整六年。如今机器人也终于有了自己的scaling law。如果把这些数据策略画成一张图X轴和机器人硬件的对齐程度Y轴可扩展性。那大概会是这样遥操作在最左下角。它最贴近机器人硬件但几乎最难扩展。再往上是数据穿戴设备它大概能扩展到几十万小时。而再往上是第一视角视频如果我们真的能跑通机器人版的动驾驶飞轮那它的规模轻轻松松就能达到千万小时级。如果在图上画一条线那这条线左边代表的是机器人的新范式Sensorized Human Data人类的传感器数据。所以我想大胆做几个预测未来一到两年遥操的占比会越来越低。低到几乎可以忽略不计。接下来会出现大量针对不同机器人硬件、不同场景量身定制的数据穿戴设备。而最终机器人的“主食”会变成第一视角人类视频。所以让我们再次为我们的老朋友遥操默哀片刻。它曾经很好地服务过我们。安息吧。遥操已死。人类传感器数据长存。但数据策略到这里就结束了吗没有。你注意到我画了两层圆。那外圈是什么今天所有前沿实验室都在砸重金购买数百万个代码环境用来做强化学习。机器人也一样。我们迫切需要海量环境。当然你也可以直接在真实机器人上做RL。在我们的实验室里我们用RL把某些任务推到了接近100%成功率。机器人可以连续执行几个小时不停。说实话看着机器人自己默默组装GPU还有点治愈。正如一位智者说的Good boi这项任务已经通过老板审批。但问题是如果机器人也想像今天的大模型一样把强化学习真正推向百万环境的规模传统路线几乎走不通。因为按过去的做法100万个环境几乎就意味着你得先准备100万台机器人这在成本、维护、部署上显然都是不现实的。于是我们开始寻找一条全新的路。比如你只需要拿出一台iPhone随手拍下一张现实世界的照片再把它送进一套3D world scanning pipeline3D世界扫描管线系统就能自动识别场景中的所有物体提取它们的三维结构并进一步把这些物体自动重建到经典物理模拟器里。更关键的是这些被重建出来的物体不是静态模型而是真正可以被交互、被操作、被碰撞的数字实体。接下来研究人员还可以基于这些场景无限扩增各种变体他们把这些变体称为Digital Cousins。到了这一步iPhone不再只是手机而变成了一个真正意义上的“口袋世界扫描仪”。而整个流程也被命名为Real→Sim→Real——从真实世界出发进入仿真再回到真实世界。靠着这套方法机器人终于第一次拥有了一种可以规模化地把物理世界搬进数字世界的能力。但即便如此这套方案本质上依然建立在传统的图形学模拟器之上。那么我们还能不能再往前走一步来吧Dream Dojo。Dream Dojo是一套建立在视频world model之上的、真正意义上的神经模拟器它接收输入的不再是传统物理参数而是一连串连续的动作信号而输出的则是机器人下一刻将会看到的RGB视频画面以及对应的传感器状态并且这一切都是实时生成的。换句话说你此刻看到的画面里没有一个像素是真的。Dream Dojo能够通过一种纯粹数据驱动的方式直接捕捉并学会不同机器人背后的运动机制和动力学规律整个过程里没有任何物理方程参与也没有任何图形学引擎介入。因此机器人正在进入一个全新的post-training范式。少量真实机器人站点负责在物理世界中持续采集高价值交互数据而另一端则是大规模并行运行的graphics cores、world scans以及高强度推理计算共同支撑世界模型的持续迭代。在这个新范式里有一个极其关键的等式正在成立——算力环境数据。也就是说算力正在变成环境环境正在变成数据而数据本身又反过来定义下一轮算力投入整个过程开始像自动驾驶里的FSD flywheel一样形成自我强化的飞轮。正如老板半开玩笑地总结的那样“买得越多省得越多。”当然这句话也已经通过他的审批。把这一切拼在一起你会发现机器人正在走上一条和大模型几乎完全平行的进化路径而且这一切不是未来式而是此刻正在发生。我们眼前看到的也许正是机器人终局之战的开端。我一直最喜欢《文明》并且喜欢把自己的研究想象成在文明科技树上不断解锁成就。如果按照我的判断机器人这棵科技树上现在只剩下最后三个成就等待被点亮只要全部解锁我就可以退休了。第一个成就叫做物理图灵测试。所谓物理图灵测试说白了就是在足够丰富、足够复杂的现实任务里人类已经无法仅靠观察去判断眼前完成工作的到底是人类还是机器人。它并不神秘无非就是单位能源输入单位劳动力输出。只要同样的能量输入能够产出同等级的劳动价值机器人就真正通过了物理世界里的图灵测试。也许喝醉的人类不算在内而看看今天机器人那些还有些“僵硬甚至略显性感”的动作姿态我们显然还有很多工作要做但如果一切顺利他认为这件事距离我们可能只剩下两到三年。第二个成就叫做Physical API。那时候机器人将不再是一台台独立存在的机器而会像今天的软件服务一样变成一种真正可编程、可调用、可编排的基础设施。你拥有的可能不再是一台机器人而是一整个舰队而你控制它们的方式也不再是按钮和控制器而是API、CLI以及更高级的编制系统。也许某一天这一切甚至会由比今天更强大的agent比如Opus4.6统一进行调度。而一旦Physical API真正出现很多今天听起来像科幻的东西都会迅速落地。比如所谓的Lighthouse Factories——灯塔工厂它们本质上不再是流水线而更像“原子打印机”你输入的不再是CAD图纸甚至不需要复杂工程文件而可能只是一份markdown文档输出的却是已经完全组装好的实体产品整个过程完全自主完成又比如wet labs也就是自动化湿实验室机器人将独立完成化学实验、生物实验乃至药物研发把科学发现的速度推到人类实验室从未达到过的高度。而最后一个也是机器人科技树上的终极成就叫做Physical Auto Research。到了那一天机器人将不再只是执行人类交给它们的任务它们会开始自己设计自己自己优化自己自己制造下一代自己并且迭代速度将远远超越任何人类工程团队所能达到的极限。听到这里你也许会觉得这听起来已经太像科幻了我们这一代人真的有机会看到吗从2012年AlexNet完成第一次forward pass开始那个连猫和狗都分得磕磕绊绊的模型。到今天整个AI community只用了14年就走到了agentic AI时代。而今天是2026年如果机器人也遵循类似的指数曲线那我们不妨再给它14年2026年刚好站在2012年和2040年的正中间而技术从来不是线性前进的它永远以指数形式爆发。所以我有95%的把握在2040年之前我们会真正走到机器人科技树的终点而等那一天到来时我们依然年轻。如果你相信机器人机器人终将回应你的相信。我们的这一代人也许出生得太晚没赶上探索地球也出生得太早还没赶上探索星辰但我们出生得刚刚好因为我们正好赶上去解决机器人。演讲链接[1]https://www.youtube.com/watch?v3Y8aq_ofEVst2s一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完—5月20日我们将在北京金茂万丽酒店举办一年一度的中国AIGC产业峰会。首波嘉宾阵容已公布昆仑万维方汉、智谱吴玮杰、EverMind邓亚峰、风行在线易正朝、百度秒哒朱广翔、Fusion Fund张璐、香港大学黄超、MarsWave冯雷都来了了解详情请你和我们一起不再只是讨论AI的未来而是现在就用起来。 报名参会一键关注 点亮星标