刚刚Meta 重金组建的超级智能实验室SML交卷这也是年轻华人 Alexandr Wang 带领该团队后交出的首份成绩。Meta 的大模型卷土重来了刚刚Meta 重金组建的超级智能实验室SML交卷这也是年轻华人 Alexandr Wang 带领该团队后交出的首份成绩。Meta 一直是生成式 AI 时代最值得关注的公司之一早在 2023 年初它凭借开源 Llama 系列模型迅速积累了一批忠实且规模庞大的用户群体。然而这一势头在去年戛然而止Llama 4 发布后评价褒贬不一最终甚至被曝出存在刷榜操纵基准测试的情况。Llama 4 这次颇为坎坷的发布促使 Meta 创始人兼 CEO 扎克伯格在 2025 年夏天对公司的 AI 业务进行了彻底重组成立了一个全新的内部部门 ——Meta Superintelligence LabsMSL并邀请年仅 29 岁的前 Scale AI 联合创始人兼 CEO Alexandr Wang 出任首席 AI 官负责领导该部门。在此之后Meta 又以高薪招募了多位顶级研究员试图在大模型与通用智能AGI竞争中重新夺回主动权。如今Meta 正在展示这一系列调整的成果全新自研模型 Muse Spark 上线。Alexandr Wang 在竞争对手社交平台 X 上表示「今天Meta 正式发布 Muse Spark这是 MSL 推出的首个模型。九个月前我们从零开始重构了整套 AI 技术栈 —— 包括全新的基础设施、全新的模型架构以及全新的数据管线。Muse Spark 正是这一系列工作的成果如今它已成为 Meta AI 的核心驱动力。」Alexandr Wang 还表示这是 Meta 迄今发布的最强模型并具备工具调用、视觉思维链visual chain of thought以及多智能体协同multi-agent orchestration能力。他还透露这将成为全新 Muse 模型家族的起点。赵晟佳、Jason Wei等从OpenAI跳槽到Meta的大牛们也开始「带货」新模型。不过这也引发了外界对于 Meta 现有明星产品线Llama 系列未来走向的诸多猜测。Muse Spark 的定位并非一个通用聊天机器人而是构建所谓个人超级智能的基础。按照 Wang 的说法这类 AI 不只是处理文本而是能够看见并理解你周围的世界从而成为个体能力的数字延伸。这一愿景与扎克伯格在 2025 年夏天公开提出的个人超级智能宣言形成呼应。Muse Spark 目前暂时仅限于在 Meta AI 应用和网站中使用并通过面向部分用户开放的私有 API 预览提供访问。此外目前 Meta 也尚未公布该模型的定价信息。至于 Meta 是否已经完全停止 Llama 系列的后续开发目前仍不明确。Muse Spark 性能Muse Spark 在多模态感知、推理、医疗相关任务以及各类 agent 任务上表现出具有竞争力的能力。Meta 还发布了 Contemplating深度思考模式该模式可以调度多个 agent 并行推理。这使得 Muse Spark 能够在推理能力上对标诸如 Gemini Deep Think 和 GPT Pro 等前沿模型的高强度推理模式。这一点在评测指标上可以看出来。在 Contemplating 模式下Muse Spark 在 Humanity’s Last Exam 测试中达到了 58%在 FrontierScience Research 测试中达到了 38%。Muse Spark 现已上线Contemplating深度思考模式将会在 meta.ai 中逐步推出。应用场景Muse Spark 被视为 Meta 迈向个人超级智能的第一步一种能够理解用户所处环境的 AI。从分析周围场景到辅助健康管理其更强的推理能力被认为可以支撑一系列高度个性化的应用场景。多模态能力从设计之初Muse Spark 就强调跨领域、跨工具整合视觉信息。在视觉类 STEM 问题、实体识别和空间定位等任务上展现出较强能力。这些能力被整合后可以支持更具交互性的应用例如生成简单小游戏或通过动态标注帮助用户排查家中设备问题。健康领域在健康场景中Meta 将个人超级智能视为重要落地方向之一。据介绍其与超过 1000 名医生合作构建训练数据以提升模型在健康推理方面的准确性和完整性。基于这些能力Muse Spark 可以生成交互式内容用于解释健康信息例如食物的营养结构或运动过程中涉及的肌肉群等。示例展示提示我是一名鱼素者且胆固醇偏高。请在推荐的食物上标记绿点在不推荐的食物上标记红点。请勿重复标记并确保圆点的位置准确无误。当鼠标悬停在圆点上时请显示个性化的推荐理由、满分 10 分的健康评分以及该食物的热量、碳水化合物、蛋白质和脂肪含量。健康评分的数值应直接显示在圆点正上方无需悬停即可见。悬停时显示的详细说明文字应置于所有其他圆点的上方。提示针对这两张图片请分别指出正在拉伸的肌肉部位及其难度等级。当鼠标悬停在圆点上时请提供关于该肌群的详细信息并指导我如何纠正动作姿势。我希望能提升自己的瑜伽水平。请将我和我的伙伴的图像并排展示并分别以 1 到 10 的分数对我们两人的表现进行评分。提示你能把这个变成一个可以在网页上玩的数独游戏吗提示识别咖啡机和磨豆机的关键组件并制作一个交互式教程通过简单的网页演示如何使用该设备制作拿铁咖啡当鼠标悬停在操作步骤上时网页将高亮显示对应组件的边界框。扩展维度Scaling Axes为了实现个人超级智能模型能力需要以可预测且高效的方式持续扩展。为此Meta 从三个维度对 Muse Spark 的规模化能力进行研究与跟踪预训练、强化学习以及测试时推理。预训练Pretraining预训练阶段是 Muse Spark 获取核心能力的基础包括多模态理解、推理以及编程能力这些能力也为后续的强化学习和测试时计算提供支撑。在过去九个月中团队对预训练体系进行了全面重构涵盖模型架构、优化方法以及数据构建等多个方面。这些改进共同提升了单位算力所能释放的模型能力。为了更严格地评估这一新体系团队通过一系列小模型拟合了扩展定律scaling law并对比了在达到同等性能水平时所需的训练 FLOPs。结果显示与此前的 Llama 4 Maverick 相比现在可以用超过一个数量级更少的算力达到相同能力水平。这一提升也使 Muse Spark 在效率上显著领先于当前可对比的主流基础模型。强化学习在完成预训练之后强化学习RL通过进一步投入算力持续放大模型能力。尽管大规模 RL 一直以来都容易出现不稳定问题但在新的技术体系下模型表现出平稳且可预测的提升。相关结果显示随着 RL 计算量以训练步数衡量的增加Muse Spark 的能力持续增强。左图中可以看到在训练数据上pass1 和 pass16即 16 次尝试中至少成功一次的指标呈现对数线性增长这表明 RL 在提升模型可靠性的同时并没有削弱其推理多样性。右图则显示在独立的测试集上准确率同样稳步提升这说明 RL 带来的能力提升具备良好的泛化性即使是训练中未见过的任务Muse Spark 的表现也在持续改善。测试时推理Test-Time Reasoning强化学习RL让模型在给出答案之前先思考这一过程被称为测试时推理。要将这种能力服务于数十亿用户关键在于高效使用推理 tokens。为此Meta 主要依赖两个核心手段一是通过思考时间惩罚来优化 token 使用效率二是通过多智能体协同在不显著增加响应时间的情况下提升性能。为了实现每个 token 带来更多智能其 RL 训练目标是在引入思考时间惩罚的前提下最大化正确率。在 AIME 等部分评测中这一机制会引发一种相变现象模型最初通过延长思考时间来提升表现但随着长度惩罚的引入开始压缩推理过程Muse Spark 能用更少的 tokens 完成同样的问题求解。在完成压缩之后模型又会适度延展推理过程以进一步提升整体表现实现效率与性能之间的动态平衡。为了在不显著增加延迟的情况下投入更多测试时推理计算可以通过增加并行协作的 agent 数量来解决复杂问题。下图展示了这一方法的优势相比传统测试时扩展让单个 agent 思考更久通过多 agent 协同推理来扩展 Muse Spark可以在保持相近响应速度的同时实现更优的性能表现。