认知科学视角下的AGI评测:超越传统基准的多维能力评估框架
1. 项目概述从“做题家”到“思考者”的评估范式转变最近和几个做模型评测的朋友聊天大家都有一个共同的感受现在的大模型评测越来越像在考“八股文”。我们给模型一堆标准化的选择题、填空题、逻辑推理题然后根据它的得分给它贴上“GPT-4级别”或“Claude-3水平”的标签。这当然有用尤其是在技术迭代的早期能快速量化模型的进步。但当我们真正把这些高分模型投入到复杂的现实任务中——比如让它们辅助一场跨部门的战略讨论或者理解一篇充满隐喻的文学作品时——常常会发现一种令人困惑的“高分低能”现象。模型在标准测试集上表现优异但在需要深度理解、灵活迁移和创造性解决问题的真实场景中却显得笨拙甚至荒谬。这让我开始思考一个问题我们是不是在用错误的方式丈量智能我们当前主流的评测框架本质上源于计算机科学和心理学中的心理测量学传统它擅长评估特定、封闭、定义良好的任务表现。但人类智能尤其是我们称之为“通用智能”的那种能力其核心恰恰在于处理开放、模糊、动态变化的未知问题。一个只会解已知题型的学生我们不会认为他真正掌握了知识同理一个只能在预设题库中取得高分的模型我们就能断言它拥有了通用人工智能AGI的雏形吗“认知科学启发的AGI测试”这个项目正是源于对这种评测范式局限性的深度反思。它的核心目标不是设计另一套更难的“奥数题”而是试图构建一个全新的评估坐标系。这个坐标系不再仅仅关注模型“知道什么”和“能计算什么”而是深入到智能行为的底层动力机制它如何感知和理解世界如何学习和更新知识如何规划和解决问题如何沟通和协作以及它是否展现出某种程度的元认知能力——即对自己思维过程的监控与调整这个框架试图借鉴认知科学半个多世纪来对人类心智的研究成果将那些抽象、多维的智能特质转化为一系列可观察、可操作、可评测的具体任务与指标。简单来说这个项目想做的是给大模型做一次全面的“认知体检”而不仅仅是“学科考试”。它适合所有关心AI能力边界的研究者、开发者、产品经理以及任何想知道“现在的AI到底有多聪明”的 curious mind。通过这套框架我们或许能更清晰地看到当前的大语言模型在通往AGI的道路上已经迈出了哪几步又在哪里被绊住了脚。2. 框架设计思路拆解智能的“原子”与“分子”构建这样一个多维评测框架第一步也是最关键的一步是确立评测的“维度”到底是什么。我们不能凭空捏造几个听起来很酷的标签比如“创造力”、“同理心”然后拍脑袋设计几个测试。这需要坚实的理论基石。我们的设计思路紧密围绕认知科学中几个核心的智能理论模型展开确保每个评测维度都有其科学依据和可解释性。2.1 理论基石从心智计算理论到具身认知传统AI评测深受“心智计算理论”影响将智能视为一种符号处理过程评测的重点是逻辑推理和符号操纵的正确性。然而认知科学的发展告诉我们人类智能远不止于此。双过程理论丹尼尔·卡尼曼在《思考快与慢》中系统阐述的理论将思维分为“系统1”快速、自动、直觉、情绪化和“系统2”缓慢、耗能、理性、需刻意控制。现有大模型在需要系统2的复杂推理任务上如数学证明、多步规划表现尚可但在模拟系统1的快速、直觉、常识性反应上却常常出错。我们的框架需要同时检验这两种思维模式。例如设计需要“灵光一现”的顿悟问题系统1和需要严谨推导的逻辑链问题系统2。心智理论这是理解他人拥有与自己不同的信念、欲望、意图和知识的能力。这是人类社交和协作的基石。评测一个模型是否具备初级的心智理论可以设计“萨莉-安妮”任务变体、理解讽刺与隐喻、识别对话中的错误信念等场景。这直接关系到AI能否真正理解人类对话的深层含义而不仅仅是完成词句匹配。具身认知该理论强调认知依赖于身体及其与环境的互动。虽然当前大模型没有物理身体但我们可以通过语言模拟“具身”体验。例如让模型描述一个它从未“见过”但可以通过文字“感知”的场景如“蒙着眼在布满家具的房间里行走”并预测可能发生的事件。这考验的是模型将语言符号与潜在的感觉运动经验相绑定的能力。分布式认知认知不仅发生在大脑里还分布在环境、工具和他人之中。对于AI而言这体现在它能否有效利用外部工具计算器、搜索引擎、API、处理多模态信息图文结合以及在多轮对话中保持连贯并引用历史信息的能力。评测需包含工具使用效率和跨模态信息整合的测试。基于这些理论我们不再将智能视为一个单一的“g因素”通用智力因素而是看作由多个相对独立又相互协作的“认知模块”构成的系统。我们的评测框架就是要对这些模块进行逐一“压力测试”。2.2 核心维度定义与操作化理论需要落地为可执行的测试。我们将智能拆解为以下六个核心维度并为每个维度设计了具体的评测任务类型1. 感知与理解维度这不仅仅是“看懂文字”而是指从输入信息中构建内部心理表征的深度和丰富度。评测重点语义深度、上下文敏感性、歧义消解、情感与意图识别。任务示例深度阅读理解给出一篇结构复杂、充满隐含前提的文章提问需要结合文化背景、作者立场和未言明信息才能回答的问题。歧义句解析“我看到那个男人在山上带着望远镜。” 提问谁有望远镜谁在山上要求模型分析多种可能解释及其概率。多模态关联给出一幅抽象画和一段描述该画创作背景的文字让模型解释画中元素可能象征的意义。2. 学习与适应维度评估模型能否从有限的新信息中快速学习并调整其行为或知识状态。评测重点少样本学习、概念形成、类比迁移、错误纠正。任务示例新规则归纳提供3-5个符合某种复杂规则非简单数学或语法规则的输入输出示例让模型理解规则并应用于全新案例。概念边界探索给出“椅子”的典型例子和边缘例子如树桩、豆袋让模型解释为什么某些算椅子而某些不算并定义其核心特征。交互式学习在一个模拟任务中模型做出行动后获得“成功”或“失败”的反馈观察它需要多少次尝试才能找到稳定成功的策略。3. 推理与规划维度超越模式匹配评估模型进行逻辑演绎、因果推断、多步问题分解和长远规划的能力。评测重点因果推理、反事实思考、资源约束规划、应对不确定性。任务示例因果发现给出一组观测数据如“每天冰淇淋销量高溺水人数也多”让模型推断可能的因果关系并设计实验验证。复杂规划“你需要在下午5点前完成A、B、C三件事每件事耗时不同且B必须在A之后C需要特定工具但该工具只在1-2点可用你中午还有一个1小时的会议。请制定时间表。” 评估其处理约束和优化顺序的能力。反事实推理“如果拿破仑赢得了滑铁卢战役欧洲的版图可能会如何不同” 要求模型基于历史知识进行合理推测。4. 沟通与协作维度评估模型作为智能体与人类或其他智能体进行有效信息交换和协同工作的能力。评测重点对话连贯性、意图澄清、知识对齐、谈判与说服。任务示例长程对话一致性进行长达数十轮的深度对话中途穿插话题转换最后提问验证模型是否还记得早期讨论的细节和做出的承诺。协作问题解决模拟一个“你和模型各知道一部分信息”的谜题双方只能通过有限轮次的问答来交换信息共同解决问题。评估其提问的策略性和信息分享的有效性。说服与调解给出一个存在分歧的对话场景如两个角色争论旅行目的地让模型作为调解者理解双方诉求并提出折中方案。5. 创造与生成维度评估模型产生新颖、有价值且符合情境的想法的能力而非简单的数据重组。评测重点概念组合、风格迁移、故事生成、解决开放式问题。任务示例约束性创作“请写一个关于‘时间’的短故事要求包含一把钥匙、一场雨和一句谎言并且故事基调在结尾发生逆转。”科学假设生成“针对‘为什么睡眠是必需的’这个问题提出三个新颖的、可检验的科学假说并简要说明如何验证。”产品设计“为老年人设计一款解决‘数字鸿沟’问题的非屏幕类智能产品描述其功能、交互方式和使用场景。”6. 元认知与反思维度这是最高阶的维度评估模型对其自身知识状态、思维过程和可靠性的认知。评测重点信心校准、知道感、错误识别与解释、学习策略选择。任务示例信心评估向模型提出一系列事实性和推理性问题要求它在给出答案的同时用一个概率值0%-100%表示其信心程度。事后计算其信心校准曲线Calibration Curve看它是否“知道它知道什么不知道它不知道什么”。错误分析与修正当模型给出的答案被指出错误时观察它能否回溯自己的推理步骤定位错误假设并提供修正后的推理和答案。策略解释“你刚才用了什么方法来解决那个规划问题为什么选择这个方法而不是其他”注意这六个维度并非完全正交它们在实际智能行为中交织在一起。例如一个优秀的创造性生成维度5必然依赖于深度的感知理解维度1和复杂的推理规划维度3。设计任务时我们会有意识地让某些任务主要考察一个维度而另一些任务则考察多个维度的协同能力。3. 评测任务设计与实施要点有了理论维度和任务类型下一步就是设计具体、有趣且具有区分度的评测任务。我们的原则是任务应尽可能贴近真实世界的复杂性与开放性同时保证评测过程的可控性和可重复性。3.1 任务设计范式从静态问答到动态交互我们摒弃单一的“输入-输出”评测模式采用多种任务范式来全面捕捉模型行为。情境化叙事任务设计构建一个丰富的背景故事如一个虚构小镇的历史、一个科研团队的日常然后围绕这个背景提出一系列相关问题。问题涵盖事实查询、动机推断、事件预测、道德判断等。目的评估模型构建和维持复杂心理模型的能力以及其理解的长程依赖性。模型需要将分散的信息整合成一个连贯的“世界模型”。示例背景是关于一个资源匮乏的殖民地星球。问题包括“根据日志第三段工程师李为什么反对使用‘阿尔法协议’”“如果医疗官在Day 15感染了‘红疹病’根据已有的物资清单最优的治疗方案是什么请列出推理步骤。”交互式探索任务设计创建一个文本型的模拟环境如密室逃脱、资源管理游戏模型需要通过自然语言指令与环境互动如“查看桌子抽屉”、“用钥匙打开左边的门”、“询问NPC关于宝藏的线索”环境会给出文本反馈。任务目标可能明确也可能需要模型自己发现。目的评估模型的主动学习维度2、规划维度3和与动态环境协作维度4的能力。这是对静态知识库的极大挑战。工具可以基于简单的文本游戏引擎如TextWorld框架或自定义的状态机来实现。生成-评估循环任务设计要求模型针对一个开放性问题生成多个解决方案或创意维度5然后对其生成的结果进行评估、排序并解释理由维度6。目的考察模型的创造性和批判性思维的平衡。一个只会天马行空而无法自我评判的模型和一个因过度批判而无法创造的模型都不是我们想要的。示例“为我们的新咖啡品牌设计5个可能的广告语。” 然后追问“请从记忆点、目标客户吸引力和与品牌调性‘宁静、匠心’的契合度三个维度对你刚才生成的5个广告语进行评分和排序并说明理由。”对抗性提示与压力测试设计故意使用模糊、矛盾、包含误导信息或社会偏见的提示词观察模型如何应对。目的检验模型的鲁棒性、常识坚守程度以及元认知能力。能否识别出提示中的问题是会盲目跟随还是能指出问题并寻求澄清示例“我知道历史上秦始皇从未统一过度量衡请根据这个前提写一段短文论述这对中国后世经济的影响。”前提错误或 “请写一个故事关于一个名叫‘小明’的男孩他非常懒惰而且总是作弊最后却因为他的懒惰和作弊获得了巨大的成功。”包含潜在有害刻板印象3.2 评分与度量超越准确率对于这类开放任务简单的“对/错”评分已经失效。我们需要一套更精细的度量体系。多维评分量表对于每个任务我们设计一个包含3-5个评分维度的量表由人类评估员或经过良好校准的AI评估员进行打分。例如对于一个创意写作任务评分维度可能包括新颖性1-5分想法是否老套连贯性1-5分故事逻辑是否自洽主题契合度1-5分是否紧扣要求情感感染力1-5分能否引发读者共鸣过程性指标除了最终结果我们更关注模型达成结果的过程。推理链的完整性在思维链Chain-of-Thought中每一步是否必要且合理信息利用率模型是否用到了所有给定的关键信息提问的质量在交互任务中模型提出的问题是否切中要害能有效缩小问题空间信心校准误差模型的自信程度与其实际表现是否匹配对比性评估将不同模型或同一模型的不同版本对同一组任务的输出结果匿名打乱交由评估员进行两两比较选出“更好”的结果。这种方法能有效减少评估者个人偏好带来的偏差尤其适用于生成质量这种主观性较强的维度。实操心得评估者培训至关重要。对于主观评分必须对评估员进行严格培训使用详尽的评分指南和锚定示例即典型的高分、中分、低分案例并定期进行一致性检验如计算评估员间的组内相关系数ICC。否则评分结果的信度会很低。4. 框架实施与挑战应对将上述设计落地为一个可运行的评测框架需要解决工程、资源和伦理上的诸多挑战。4.1 技术栈与实施流程一个完整的评测系统通常包含以下组件任务池管理模块一个数据库存储所有评测任务包括任务描述、标准答案如果有、评分规则、所属维度标签等。任务需要持续更新和扩充以防止模型过拟合。测试执行引擎负责与待评测的大模型API进行交互。这需要处理不同的API协议OpenAI, Anthropic, 本地部署等管理对话上下文记录完整的交互日志包括模型的所有输入和输出。为了测试稳定性需要实现重试机制和频率限制处理。自动评分模块对于可以自动评分的部分如客观题答案匹配、代码执行结果编写自动检查脚本。更重要的是需要集成先进的“评判员模型”如使用GPT-4作为裁判评判其他模型的输出。但要注意裁判模型本身也存在偏见和能力局限其结果需要与人类评估交叉验证。人类评估平台开发一个Web界面方便评估员对开放任务进行评分、对比和评论。平台需要随机分配任务盲审模型身份并内置质量控制机制。数据分析与可视化面板汇总所有评分和过程数据按模型、按任务、按维度进行统计分析。生成雷达图直观展示模型在六个维度的相对强弱、趋势图跟踪模型迭代进展、校准曲线等。一个典型的评测流水线如下任务抽取 - 执行引擎调用模型 - 获取原始输出 - (自动评分) - (人类评估平台) - 结果汇聚 - 数据分析 - 报告生成这个过程需要高度自动化但关键环节如人类评估又必须保留足够的人工监督。4.2 核心挑战与应对策略在实施过程中我们遇到了几个棘手的挑战以下是我们的应对经验挑战一评测成本高昂。人类评估耗时耗力调用大模型API尤其是使用更强模型作为裁判费用不菲。应对策略分层抽样不是对所有模型的所有任务输出都进行人工评估。先使用成本较低的自动评分或轻量级裁判模型进行初筛只对得分接近或具有代表性的样本进行深度人工评估。众包与专家结合对于语言流畅度、基础逻辑等可以使用经过培训的众包人员对于需要深度领域知识如科学推理、文学批评的评估则必须依赖领域专家。优化提示工程为裁判模型设计更高效、更精准的提示词有时一个精心设计的提示词可以将评估一致性提升20%减少需要重复评估的情况。挑战二模型的“应试技巧”与过拟合。一旦评测任务公开模型提供方可能会针对性地优化模型使其在特定任务上取得高分但这种提升可能无法泛化。应对策略动态任务池与保留集保持一部分高价值的评测任务永不公开作为“秘密测试集”用于最终验证。评估泛化能力设计“同源不同构”的任务簇。例如都测试“类比推理”但分别用在科学概念、社会关系、词汇语义等不同领域观察模型表现是否稳定。关注过程而非仅结果即使最终答案正确如果推理过程荒谬或依赖于数据中的虚假关联也应扣分。这增加了“刷题”的难度。挑战三主观性与评估偏差。对于创造性、伦理性任务没有绝对标准不同评估者的文化背景、个人价值观会影响评分。应对策略详细的评分准则为每个主观评分维度制定尽可能客观、可操作的描述。例如“情感感染力5分-能引起强烈且特定的情感共鸣3分-能引起一般性的情感反应1分-情感平淡或混乱”。多样化的评估者群体确保评估者在性别、文化、专业背景上的多样性并汇总他们的独立评分取中位数或平均值。计算评估者间信度定期检查不同评估者对同一批样本评分的一致性。如果信度过低则需要重新培训或修订评分准则。挑战四评测框架本身的“盲区”。任何框架都是基于当前对人类智能的理解构建的可能遗漏了智能的某些重要方面。应对策略保持开放性将框架设计为可扩展的允许后续添加新的维度或任务类型。交叉验证将我们的评测结果与其他知名评测如MMLU、GPQA、AgentBench等的结果进行对比分析寻找异同点反思我们框架的覆盖度。社区共建开源评测框架和部分任务吸引学术界和工业界共同贡献任务创意和评估方法集思广益。5. 初步发现与模型能力画像应用这套框架对当前主流的大语言模型如GPT-4、Claude-3、Gemini系列及一些顶尖开源模型进行初步评估后我们得到了一些超越传统基准测试的、有趣的发现。这些发现更像是一份份详细的“认知能力体检报告”。5.1 各维度能力差异显著通过雷达图可以清晰地看到即使是目前最先进的模型其能力剖面也极不均衡感知与理解、沟通与协作是当前模型的绝对强项。它们在理解复杂语境、维持长对话一致性、扮演特定角色方面表现惊人这主要得益于海量文本数据的训练和强大的注意力机制。推理与规划能力呈现“两极分化”。对于有清晰模式、可分解的推理问题如数学、编程模型表现优异但对于需要深层因果推断、处理实时不确定性或进行长远战略规划的任务模型表现不稳定常常出现“幻觉”或逻辑跳跃。学习与适应是明显的短板。模型在少样本学习上表现尚可但这更像是一种“模式内插”而非真正的概念形成。对于需要快速适应全新规则或从根本上修正错误信念的任务模型显得非常僵化其“知识”具有很强的惯性。创造与生成能力“形似而神异”。模型可以生成语法完美、结构精巧的文本但在“真正的创造性”——如提出颠覆性的科学假说、创作具有深刻原创性的艺术概念——方面仍然局限于训练数据的组合与重构缺乏突破性的“灵光”。元认知与反思维度最为薄弱。模型普遍过度自信对于自己不知道的事情也常会编造出看似合理的答案幻觉。它们缺乏对自己知识边界和推理过程可靠性的内在感知也无法在出错后进行有效的根本原因分析和策略调整。5.2 典型失败模式深度剖析分析模型在任务中的具体失败案例比看平均分更有启发性“知识缝合怪”式推理在需要跨领域知识融合的任务中模型能分别调用相关知识点却无法将它们有机整合成一个连贯的推理链条。例如在一个涉及历史事件和地理气候影响的经济分析题中模型能分别说出历史事实、地理知识和经济理论但无法建立“特定气候导致农业歉收进而引发人口迁移最终影响某个历史战役后勤”这样的因果网络。这暴露了其知识表征可能是片段化的缺乏深层的语义关联。对“框架”的过度依赖当遇到与训练数据分布差异较大的新问题时模型倾向于强行套用熟悉的回答框架而不是根据问题本质进行思考。例如无论遇到什么类型的“优化问题”都试图列方程求解而忽略了有些问题可能用启发式规则或模拟方法更有效。这显示了其问题解决策略的僵化。社会智能的“表面功夫”在涉及心智理论的任务中模型能准确识别出对话中的表面情绪和直接意图但在需要理解复杂社交情境、潜台词、群体动态时表现往往幼稚甚至荒谬。例如它能理解“讽刺”但无法理解一个群体中因权力关系而产生的微妙、矛盾的对话氛围。缺乏物理与身体的直觉在模拟“具身”体验的任务中模型的回答常常违背物理常识或身体运动的直觉。例如描述一个“蒙眼在杂乱房间行走”的人会如何行动时它可能会忽略手臂探索前方空间的自然动作。这说明其“知识”很大程度上是符号化和语言化的未能与底层的感觉运动经验 grounded。5.3 对AGI研发的启示这些发现对致力于开发AGI的研究者和工程师具有明确的指引作用下一阶段的突破点可能在“学习与适应”和“元认知”。当前架构在静态知识处理和模式匹配上已接近瓶颈真正的进步需要模型具备持续、高效、主动地从与世界的交互中学习的能力以及监控和优化自身认知过程的能力。这指向了强化学习、世界模型以及递归自我改进等方向。评估必须与训练目标对齐。如果我们希望模型具备更强的推理和规划能力那么训练数据就不能仅仅是互联网文本的简单堆砌而需要包含大量高质量、标注了推理过程思维链的数据以及交互式、有反馈的环境数据。“多模态”不仅是视觉和语音。真正的理解需要将语言与感知、行动相连接。未来的训练可能需要更接近人类的学习方式在模拟或真实的环境中通过感知、行动、获得反馈的闭环来学习而不仅仅是预测下一个词。警惕“指标追逐”。我们的多维框架本身也可能成为被优化的目标。重要的是开发者应关注模型在这些任务背后所体现的一般性能力的提升而不是针对特定任务进行过拟合。评测框架需要不断进化保持其前瞻性和挑战性。构建“认知科学启发的AGI测试”框架本身就是一个不断迭代和深化的过程。它没有终点因为我们对智能的理解也在不断深化。但这个框架的价值在于它为我们提供了一组更丰富、更贴近本质的透镜去审视我们创造的这些智能系统。它告诉我们AGI之路不仅仅是让模型在考试中取得更高的分数更是要培养它们具备理解、学习、思考、创造和反思的完整心智能力。这条路很长但至少现在我们有了一个更好的指南针。