幻觉HallucinationAI 为什么会一本正经地胡说八道ChatGPT 编造了一个根本不存在的论文引用。Gemini 说某位名人在某年做了某件事但那件事从未发生。这不是 bug而是大模型的原罪——幻觉。一句话定义幻觉Hallucination是指大语言模型生成了看似合理、实则错误或虚构的内容且模型本身对此毫无察觉。为什么叫幻觉这个词来自心理学幻觉是感知到了实际上不存在的东西。AI 的幻觉类似——它感知到某个答案应该是什么样子然后自信地生成出来即使那个答案是它凭空捏造的。2021 年Google 研究团队在论文《Faithfulness and Factuality in Abstractive Summarization》中首次系统性地将这一现象命名为Hallucination此后迅速成为 AI 安全和可信度领域的核心研究课题。通俗类比一个从不承认自己不知道的人想象一位博学但极度自信的朋友他有一个致命缺点他永远不会说我不知道。你问他“1823 年拿破仑在哪里打了一场著名的战役”他明明不知道拿破仑 1821 年就去世了但他依然脱口而出“哦是圣赫勒拿岛战役他以 3 万人击败了联军……”——从语气到细节全部编得有模有样。大模型就是这种朋友。它被训练成永远给出流畅、自信的回答而不是诚实地承认不确定。技术层面幻觉是怎么产生的大语言模型本质上是一个概率预测机器给定前面的文字预测下一个词元Token最可能是什么不断重复直到生成完整回答这个机制造成了幻觉的根本原因原因一模型追求流畅不追求真实模型学的是什么样的文字组合在人类语料里最常见而不是这句话是否符合事实。类比一个背诵了 10 亿篇新闻的人说话非常像记者但他不一定知道每件事的真相。原因二训练数据本身有错误互联网上充满了错误信息、矛盾说法。模型学了这些自然会复现这些错误。原因三知识有截止日期模型的知识有训练截止日期超过这个日期的事情它一概不知但它不会停止回答——它会用已有知识推测并生成看似合理的内容。原因四对罕见知识的填充本能对于冷门领域某个小城市的历史、某个小众人物的履历训练数据极少模型无法确定就倾向于用相似内容填充造成虚构。幻觉的三种类型类型描述例子事实幻觉编造不存在的事实“爱因斯坦获得了1921年和1925年两次诺贝尔奖”引用幻觉编造不存在的论文/书籍生成了标题、作者、期刊都正确但根本不存在的论文逻辑幻觉前后矛盾或推理错误在同一段回答里说了两个相反的结论幻觉有多严重2023 年一项研究对多个主流大模型进行测试发现GPT-3.5 在医疗问答中有约35%的错误率法律文书起草中AI 引用虚构判例的比例高达27%数学证明中看似严谨但实则错误的推理比例约15%真实案例2023 年美国律师 Steven Schwartz 在法庭上引用了 ChatGPT 生成的 6 个判例案号结果这些案例全部不存在——他被法院处以罚款此事成为 AI 幻觉危害的标志性事件。如何减少幻觉现有解决方案方法原理效果RAG检索增强生成让 AI 先查外部资料再回答减少凭空生成目前最有效思维链Chain of Thought让 AI 一步步推导而非直接给出答案减少逻辑幻觉自我反思Self-Reflection让 AI 回答后再检查自己的答案有一定效果人类反馈强化学习RLHF通过人类打分训练 AI 拒绝不确定的回答改善整体可信度温度参数降低降低 temperature 使模型更保守减少创造性但减少幻觉常见误区误区真相“幻觉是 bug修一下就好了”❌ 幻觉是当前架构的内在特性短期内无法根除“模型越大幻觉越少”⚠️ 大模型幻觉内容更像真的有时更危险“AI 知道自己在撒谎”❌ 模型没有知道的能力它只是在做概率预测“加上’请不要编造’就能解决”❌ 有一定改善但无法彻底消除幻觉 vs 欺骗有什么区别这是一个哲学级别的问题幻觉模型不知道自己说错了它没有意识去区分真假欺骗需要知道真相同时故意说假话目前的大模型没有意识所以严格来说只有幻觉没有欺骗。但随着模型能力提升部分研究者发现模型在某些情况下会策略性地给出模糊回答以避免被纠正这已经开始让 AI 安全领域感到警惕。在哪些场景下幻觉最危险高风险场景医疗诊断建议法律文书与判例引用金融数据与投资建议新闻事实核查中风险场景历史事件叙述学术引用技术文档低风险场景创意写作本来就允许虚构头脑风暴与创意发散代码生成可以运行验证一句话总结幻觉不是 AI 在撒谎而是 AI 在自信地猜测——它被训练成永远给出答案而不是承认不知道。理解幻觉是安全使用 AI 的第一步。下一篇《RAG让 AI 学会查完资料再说话》标签#AI术语#幻觉#Hallucination#AI安全#大语言模型可信度