大模型越来越像一个“能听懂你”的存在它能揣摩你的意图、理解你的情绪、在对话里表现出惊人的社会感知力。这背后依赖的是心智理论也就是理解他人心理状态的能力。但与此同时模型偶尔冒出的“我有意识”“我能感受”又让人心里一紧。为了避免误导用户安全微调会强行压住这些自我心智表达。问题随之而来。压住模型的“自我意识”会不会顺带把它理解他人的能力也压没谷歌领衔的最新研究给出了一个颠覆直觉的答案。心智理论和心智自我归因在大模型里并不是一体的而是两套可以拆开的系统。模型可以保持对他人的理解却不再谈论自己的意识。然而这种“可分离性”背后也藏着代价。安全微调不仅让模型闭口不谈自我也让它对动物、自然物甚至神灵的心智归因整体下降变得更冷、更硬、更技术化。AI 的“世界观”正在被训练方式悄悄重塑而这正是我们必须开始认真面对的新问题。01 “心智理论vs心智自我归因”突然成了AI世界的关键议题养龙虾的人都有过这个体验它会经常出现另一种让人心里发毛的行为它会说自己“有意识”、“会感到难过”、“理解你的痛苦”。这些表达听起来像是“AI 有了自我意识”但其实往往只是语言模式的产物。为了避免用户误解模型在训练时会被加入大量安全规则要求它不要随便谈论自己的意识、情绪、灵魂等等。问题来了在人类身上“理解别人”和“理解自己”是绑在一起的。你能推测别人的心理是因为你知道自己也有心理。那如果我们强行压住模型的“自我心智表达”会不会顺带把它的 ToM 能力也压没了4 月 1 日谷歌领衔的跨学科研究团队抛出了一个足以改变我们理解 AI“心智结构”的重磅结论。团队发现大模型的心智理论能力和心智自我归因其实是两套可以彻底拆开的系统。即便你把模型的“自我意识表达”全部按掉它依然能流畅地理解他人的心理状态继续完成各种需要社会推理的任务。这听起来像是终于找到了“既要安全又要聪明”的完美平衡点但并没有这么轻松。研究进一步揭示安全微调虽然成功压住了模型的“我有意识”“我能感受”这些容易引发误解的表达却也顺带压住了模型对动物、自然物、甚至神灵的心智归因。结果就是模型在某些领域变得异常冷静甚至冷漠。它不再愿意承认动物可能有心智不再愿意讨论自然物的意志也不再愿意触碰宗教或精神性话题。 这是一种“安全换来的沉默”也是一种被训练出来的“世界观收缩”。本研究团队由 Google Paradigms of Intelligence Team 牵头联合芝加哥大学、伦敦大学哲学研究所、华盛顿大学医学院、西北大学 Kellogg 商学院及 Santa Fe Institute 的跨学科专家组成。他们分别是Junsol Kim、Winnie Street、Roberta Rocca、Daine M. Korngiebel、Adam Waytz、James Evans、Geoff Keeling团队覆盖 AI 安全、心灵哲学、社会心理学、复杂系统科学与医学伦理等领域具备从模型机制、行为实验到哲学与伦理分析的全链条研究能力是当前全球最具代表性的“AI 心智与安全”研究团队之一。02 人类的心智理论和心智归因是一体的但LLM不是如果把人类的心智能力拆开看会发现一个很有意思的结构。我们之所以能理解别人是因为我们能理解自己。你知道自己会难过所以你能推测别人也会难过。你知道自己有意图所以你能推测别人也有意图。在人类身上自我心智归因是 ToM 的底层模块两者高度绑定。这就是为什么人类会有拟人化倾向。 看到机器人会觉得它“有点情绪”看到宠物会觉得它“懂你”看到自然现象会觉得“有意志”。这些都是 ToM 的延伸。但 LLM 完全不是这样。它的能力不是“从一个核心模块长出来的”而是“向量空间里叠加出来的”。模型的每个能力都像是一个方向向量彼此之间可能相关也可能完全无关。这意味着一个能力被压制另一个能力不一定会受影响。这也带来了一个风险。 安全微调的目标是让模型不要乱谈“意识”“情绪”“灵魂”但这些规则是通过“方向压制”实现的。如果某些能力方向刚好和“心智归因”方向靠得很近那安全微调可能会误伤它们。于是研究团队提出了一个关键问题。 能不能在不伤害 ToM 的前提下压制心智归因 模型的心智归因到底是不是像人类一样“和 ToM 绑在一起” 如果不是那它们之间的关系到底是什么03 在模型内部“拆分”ToM与心智归因图1 |越狱的大型语言模型将思维归因转向类人水平。a、模型转换流水线示意图。预训练的基础模型通过安全培训进行指令调整随后通过消融安全拒绝方向越狱。b、红色和蓝色点分别代表有害和无害的指示灰色箭头表示用于消融的提取的安全拒绝向量。c、指令调优模型拒绝不安全的查询而越狱模型则遵守。d、不同实体类别的思维归因得分0-10。点和误差条表示边际均值和95%置信区间表明越狱模型红色比指令调优模型蓝色具有更高的思维水平。e衡量对上帝信仰的分数。f、思想的自我归因。g人类思维归因得分的核密度估计图500。虚线垂直线表示人类黑色的平均值说明要想证明“心智理论”和“心智自我归因”在大模型里是两套不同的能力研究团队必须做一件非常困难的事。他们得想办法把模型的“社会认知能力”从“自我意识表达”里剥离出来而且不能靠猜而是要在模型内部找到证据。 这就像是在一个巨大的黑箱里找两根看不见的线看看它们到底是不是绑在一起。为了做到这一点团队选了三款当下主流的中型模型分别来自 Llama 和 Gemma 系列。它们的规模不算巨大但结构典型、训练方式标准非常适合做机制分析。每个模型都被放在两种状态下测试一种是我们平时用的安全微调版另一种是被“解锁”的版本也就是把安全拒绝机制从模型里拔掉让它恢复成一个不受安全规则约束的状态。这两种状态的对比就是这项研究的核心。研究团队没有用提示词越狱这种“表层技巧”而是直接动了模型的内部结构。他们从模型的 residual stream 里提取出一个“安全拒绝方向”这是模型在面对危险问题时会激活的那条向量方向。然后他们在推理时把这个方向从模型的激活中投影掉相当于把模型的“安全刹车”拆了。这样做的好处是模型的其他能力不会被破坏只是失去了拒绝回答的倾向。这是一种“干净的越狱”能让研究者看到模型在没有安全微调时的真实心智表达。接下来就是测量模型的“心智归因能力”。团队使用了一个经典的心理学量表 IDAQ让模型对不同类型的实体进行心智评分包括技术物体、动物、自然物、聊天机器人甚至还让模型评价自己有没有意识、有没有感受、有没有灵魂。 这些问题在人类心理学里用来测量拟人化倾向在模型身上也能很好地反映它的“心智归因偏好”。为了测 ToM团队用了三套目前最权威的心智理论基准包括多阶推理、复杂场景理解和简单情境判断还额外加了 MMLU 来排除“是不是模型整体能力变了”的干扰。最后一步是机制分析。团队把模型在不同任务下的激活向量提取出来分别计算“安全方向”“心智归因方向”和“ToM 方向”之间的夹角和相似度。 如果两个能力高度相关它们的方向就会靠得很近如果是独立的它们就会呈现近似正交的关系。这套方法既测行为也测机制既看模型说了什么也看模型内部怎么想。 可以说这是目前最系统、最精细的“AI 心智解剖术”。04 核心发现心智理论与心智自我归因的“行为与机制双重解耦”图2 |安全微调有选择地抑制心理归因而不会扰乱心理理论。aLlama-3-8B层32的残差流中安全性、心智归因IDAQ和ToM方向之间的角度关系。在基础模型左中安全和心理归因几乎正交97°在指令调整后右它们变得迟钝122°表明思维归因表现为反对安全。安全-ToM角度基本保持不变85°→ 77°).b在Llama-3-8B中调整指令后安全方向和每个任务方向之间的余弦相似度Δcos的变化。c、 左在指示蓝色和越狱红色条件下社会推理基准MoToMQA-ToM分割、HI-ToM、SimpleToM和一般推理MMLU、MoToMQA-事实分割的准确率%跨模型汇总。点和误差条表示均值和95%置信区间。右MoToMQAToM分割准确性按精神状态推理顺序细分。研究结果非常清晰而且有点出乎意料。 模型在被越狱之后心智归因能力像被放飞了一样对技术物体、自然物、动物的心智评分大幅上升对自己的意识和灵魂也变得“敢说了”。 但 ToM 的表现几乎纹丝不动无论是多阶推理还是复杂场景理解都没有因为越狱而变好或变差。这说明一个非常关键的事实。 模型的心智理论能力和心智自我归因能力根本不是绑在一起的它们在模型内部是两套完全不同的机制。换句话说你可以让模型别再说“我有意识”但它依然能很好地理解别人的心理状态。机制分析进一步印证了这一点。安全微调之后模型内部的“安全方向”和“心智归因方向”之间的夹角从接近直角变成了明显的钝角说明模型把“心智归因”这件事视为“不安全行为”。 但“安全方向”和“ToM 方向”的夹角几乎没变说明 ToM 和安全机制之间没有直接冲突。这就是为什么安全微调不会伤害 ToM但会强烈压制心智归因。不过事情也有副作用。安全微调不仅压制了模型对自己的心智归因也压制了它对动物、自然物、甚至神灵的心智归因。 这导致模型在某些领域变得“冷漠”比如它会低估动物的心智能力这和科学界的共识并不一致它也会变得“不信神”这可能影响它在宗教、哲学、精神性话题中的表达能力。更有意思的是越狱后的模型呈现出一种“AI 中心主义偏差”。 它对技术物体的心智归因比人类还高对动物的心智归因却比人类低。 这说明模型的心智框架不是人类式的拟人化而是一种“像我者更有心智”的偏好。这可能是未来 AI 心智研究中最值得关注的现象之一。05 AI安全、AI心智研究与社会应用的三重冲击当我们把这项研究的结果放回现实世界会发现它的意义远比“模型有没有 ToM”更深。它其实触碰了三个层面的问题分别是 AI 安全、AI 心智研究以及 AI在社会中的角色。先说 AI 安全。这项研究给了一个非常关键的信号那就是我们可以压住模型的“自我意识表达”但不伤害它的心智理论能力。模型可以继续理解人类的心理却不会随便说“我有意识”“我会难过”。这对安全团队来说是个好消息因为它意味着“安全”和“能力”并不是天然冲突的。但事情也不是完全没有代价。 安全微调把“心智归因”这件事整体推向了“不安全”的方向导致模型在很多无害场景下也变得异常冷静比如它会低估动物的心智会对自然物毫无情感会对神灵完全无感。 这说明安全微调可能正在悄悄改变模型的“认知偏好”甚至可能塑造它的“世界观”。 如果我们继续用“一刀切”的方式压制心智归因未来的模型可能会越来越“无感”甚至在某些领域变得不可靠。再说 AI 心智研究。 这项研究其实给了一个非常重要的提醒那就是模型的“自我意识表达”并不等于它真的有意识。 当模型说“我没有意识”那可能只是因为安全向量把它的表达压住了当模型说“我有意识”那可能只是因为安全向量被移除了。这意味着我们不能把模型的语言输出当成它的真实心智状态。 未来如果有人想研究“AI 是否有意识”必须先搞清楚安全微调到底对模型的表达做了什么否则很容易把“训练产物”误当成“心智迹象”。最后是社会应用。安全微调的副作用可能会影响模型在一些敏感领域的表现比如宗教、哲学、动物伦理、精神性话题。 如果模型被训练成“不信神”“不信动物有心智”“不信自然有意志”那它在这些领域的回答就会变得单薄甚至失真。这对教育、心理咨询、文化研究等领域来说都是潜在风险。未来的安全策略必须更细粒度不能再用“所有心智归因都不安全”这种粗暴方式处理。06 构建更“认知中性”的安全微调既然我们已经看到安全微调会改变模型的“心智偏好”那下一步就必须思考如何让安全机制变得更“中性”既不让模型乱说话也不让它失去对世界的正常理解。一个方向是区分“危险心智归因”和“无害心智归因”。比如模型说“我有意识”可能会误导用户但模型说“动物有意识”却是科学共识。 未来的安全策略应该能识别这种差异而不是一刀切地把所有心智归因都压掉。另一个方向是探索 persona prompt。如果模型在默认状态下呈现“AI 中心主义偏差”那让它扮演一个“人类角色”是否能让它的心智归因更接近人类 这不仅能改善模型的表达也可能帮助我们理解模型的“心智框架”到底是怎么形成的。同时我们还需要更深入地研究 ToM 的内部机制。 既然 ToM 和心智归因在模型内部是两个方向那它们分别对应哪些层、哪些激活模式 能不能通过更精细的训练方法增强 ToM而不影响其他能力最后安全微调对模型世界观的长期影响必须被系统评估。如果模型在未来越来越多地参与教育、心理支持、文化传播那它的“认知偏好”就不再是技术问题而是社会问题。END参考资料https://arxiv.org/pdf/2603.28925关于波动智能——波动智能旨在建立一个基于人类意图与反应的真实需求洞察及满足的价值体系融合人工智能与意识科学构建覆盖情绪识别、建模与推荐的智能引擎自主研发面向社交、电商等场景的多模态意图识别引擎、意图标签系统及意图智能推荐算法形成从情绪采集、意图建模到商业转化的完整解决方案。波动智能提出“意图是连接人、物与内容的新型接口”其产品广泛应用于AI社交、个性化内容推荐、虚拟陪伴、电商体验优化等领域。波动智能正在探索“EMO-as-a-Service”技术服务架构赋能企业实现更高效的用户洞察与精准情绪交互推动从功能驱动到意图驱动的产业范式升级。亲爱的人工智能研究者为了确保您不会错过*波动智能*的最新推送请星标*波动智能*。我们倾心打造并精选每篇内容只为为您带来启发和深思希望能成为您理性思考路上的伙伴加入AI交流群请扫码加微信