AI初创公司Ineffable获11亿美元种子轮融资,David Silver能否带来新范式?
AI初创公司获巨额融资Ineffable一家成立仅数月连具体产品形态都没公布的AI初创公司获得了Sequoia Capital和Lightspeed领投的11亿美元种子轮融资Index Ventures、谷歌、NVIDIA等参投其他参投机构还包括英国商业银行British Business Bank和Sovereign AI。类似情况此前已有类似的剧本此前已经出现过Ilya Sutskever的Safe Superintelligence、Yann LeCun的AMI Labs也都是在产品尚未完全清晰时获得了超10亿美元的种子轮融资投资人下注的本质上是创始人的技术信誉以及他们对下一代AI路线的判断。创始人实力强劲Ineffable的创始人是David Silver他是AlphaGo、AlphaZero、MuZero、AlphaStar、AlphaProof等强化学习代表性成果的首席研究员与核心技术驱动力。看一下他的Google Scholar主页总引用数超过30万万引以上的论文有8篇可以说他是当代强化学习技术引领者。核心使命与目标Ineffable的核心使命是构建超级智能superintelligence他们要创造一个“超级学习体”superlearner它能够凭借自身经验探索全部知识。一个能自我进化的“超级学习体”目标是发现全新的科学、技术知识。David Silver的成就David Silver的职业生涯本质上就在连贯地证明一点“无需人类先验经验human priors也能实现智能的规模化扩展”。2016年他在Google DeepMind参与开发的人工智能程序AlphaGo结合人类棋谱学习、强化学习与自我对弈在围棋领域打败李世石让世界首次窥见了超级智能superintelligence的雏形。David随后通过AlphaGo Zero将他的理念推向极致彻底移除人类预训练数据纯粹通过自我对弈进行学习使系统的ELO等级分现在大模型的排行榜也在用这个从约3700飙升至5000以上。他在DeepMind的另一个成果AlphaProof与AlphaGeometry 2一起在2024年国际数学奥林匹克竞赛题目上达到银牌水平。最初AlphaProof接触了约十万个人类数学家多年积累的正式证明随后其强化学习算法通过与形式化证明系统的持续交互又生成了一亿个证明。这种对交互经验的侧重使AlphaProof得以探索现有正式证明范围之外的数学可能性从而发现解决新颖且极具挑战性问题的方案。可以看到David每迈出一步他打造的AI系统就离模仿更远离发现更近。Ineffable正是这条探索之路的下一步。对现有AI系统的看法谈到现有AI系统的问题David对《连线WIRED》的记者表示他认为目前的通用做法终将失败。尽管大语言模型已经达到相当高的水平但它们本质上是在学习人类智能而非构建自身原生的智能。他用一个思想实验指出大语言模型路径的局限性如果穿越回过去把一个大语言模型投放到一个坚信“地平说”的时代。由于无法与真实世界互动即使这个系统不断优化自身的代码它依然会是一个狂热的“地平说”支持者。他做了一个比喻“人类数据就像一种化石燃料提供了一条极佳的捷径而你可以把那些自主学习的系统看作可再生燃料——它们可以永无止境地持续学习下去没有上限。”他提出Ineffable的使命是与超级智能进行首次接触。他对超级智能的定义是某种真正不可思议的存在。它应当能够自主发现全新的科学、技术、治理模式或经济学体系。想象一下一台机器能够从第一性原理推导出物理定律能够发明人类从未设想过的全新数学分支能够设计出现有词汇尚无法描述的新材料、新药物和新计算机。“超级学习体”的情况Ineffable目前没有公布他们的具体产品只明确了他们要创造一个“超级学习体”superlearner这种智能体的目标是凭借自身经验持续探索知识与技能而不是主要依赖人类生成的数据。这种“超级学习体”将由强大的强化学习算法驱动通过试错、反馈和自我改进不断学习最终有可能重新发现并超越人类历史上的重要发明。技术路径端倪从David与他的老师Richard Sutton强化学习之父图灵奖得主在2025年4月发布的论文《Welcome to the Era of Experience》中我们可以窥见一些Ineffable技术路径的端倪。论文的核心观点是一旦经验学习experiential learning的全部潜力被释放将会涌现出令人难以置信的新能力。经验时代很可能由智能体与环境共同定义。所谓经验学习的前提是智能体通过与环境的交互生成数据并从这些交互中学习。学习与数据生成形成了一个单一的闭环。人类生成的数据是有限的但经验是“无限”的。只要智能体还能行动、观察并获得反馈它就能不断生成新的学习数据。现在以人类数据为中心的AI面临的问题是要想取得更重大的突破就需要新的数据源。这种数据的生成方式必须能够随着智能体变强而不断优化任何用于生成合成数据的静态程序很快都会被强大的智能体超越。经验时代智能体的特征人工智能正处于一个新周期的前沿在这个时期经验将成为能力提升的主导媒介并最终在规模上远超当今系统所使用的人类数据。经验时代的智能体具备几个核心特征智能体将身处持续的经验流streams of experience中而非简短的交互片段。它们的动作与观察将深度扎根于所处环境交互不再仅仅局限于对话形式智能体将能采取实际行动来改变其世界并从中获得丰富的观测反馈。它们的奖励及其目标将直接基于其在世界中的真实经验反馈。这不再依赖于某个标分员主观评判一个动作的好坏而是智能体在世界中采取行动产生好或坏的实际后果智能体进而从这些真实后果中学习。它们的推理不再只是模仿人类写下来的思维过程而是会基于自己与世界的实际交互进行预测、试错和修正。这里要强调的是奖励和规划推理恰恰是经验时代最关键的两个支点。奖励回答的是“智能体到底向什么目标优化”的问题。今天的大语言模型主要依赖人类偏好人类在没有看到真实后果前先判断一个回答或动作好不好而经验型智能体会更多依赖真实世界反馈让行动结果本身成为学习信号。规划与推理回答的则是“智能体如何利用经验采取更好行动”的问题。它不只是模仿人类写出一串思维链而是通过与环境交互、建立世界模型、预测行动后果再用真实反馈修正自己的判断。也就是说经验时代的智能体不再只是学习人类已经写下来的知识而是在真实世界的闭环中自己发现什么有效、什么无效以及为什么有效。构建世界模型示例将思维直接扎根于外部世界的一种可行路径是构建一个世界模型world model。它能够预测智能体行为对世界产生的后果包括预测这些行为可能带来的奖励。以健康助手为例用户想“改善体能”奖励函数可以指向睡眠、心率、步数、疲劳感等真实信号而世界模型要做的是在提出建议前预判不同方案的后果推荐健身房是否能提高运动频率晚上散步是否有助于睡眠减少咖啡因是否会改善心率和入睡时间。随后用户真实的健康数据和主观反馈又会反过来校准模型。预测错了就修正建议有效就强化。这样健康助手就不只是给出看似合理的建议而是在持续的“建议—行动—反馈—修正”闭环中逐步学会什么真正适合这个用户。押注新范式可能性OpenAI和Anthropic的估值已经被推到万亿美元附近有消息称Anthropic的估值达到1.2万亿美元GoogleMeta也对AI做了巨量投入这些都是建立在Transformer这个技术架构上的而多模态模型例如视频和图像模型则是Transformer和Diffusion架构的结合。一些公司已经在试图挑战和改造Transformer架构让它变得更快消耗更低。例如Together AI 、Cartesia AI就探索的是SSM架构Liquid AI做的是边缘模型RWKV做的是RNNTransformer。但是归根结底这些范式仍然基于的是人类数据而人类数据是有上限的。彻底的新范式在现阶段可能离商业化远一些但是一旦新的范式被证明有效并形成新的生态那它带来的好处又是巨大的科技发展史上已经多次证明这一点这也是Ineffable在种子轮就获得11亿美元的原因VC们押注的不是产品是AI的下一个颠覆性范式的可能性。而让他们押注的原因还是David Silver因为他的AlphaGo因为他的8篇万引论文因为他敢于挑战现有AI范式的勇气和远见。这与阿尔法公社致力于发现非凡创业者专注早期科技投资的逻辑是不谋而合的。那么Ineffable能否真的带来AI的新范式呢