标题Beneath the Surface: Investigating LLMs’ Capabilities for Communicating with Subtext来源arXiv, 2604.05273v1️文章简介研究问题当前的大语言模型能否在创造性沟通中有效使用和理解超越字面含义的潜台词主要贡献提出了四个全新的评估套件系统量化了大模型在寓言写作、多智能体游戏等场景下的潜台词沟通能力。重点思路构建视觉隐喻环境模仿桌游 Dixit 规则要求模型生成既非过于直白也非晦涩难懂的线索仅让部分玩家理解意图。设计调谐游戏环境基于 Wavelength 规则测试模型能否利用共享背景知识向队友传递特定频谱位置的隐含信息。创建历史寓言评估集通过改变作者身份和读者人设等副文本因素考察模型对虚构故事中历史影射的解读能力。开发伊索作者环境模拟审查制度下的高压场景要求模型撰写能让批评家读懂禁言话题却骗过审查官的故事。分析总结前沿模型普遍存在过度直白的偏差在视觉隐喻任务中即使表现最好的模型也有六成时间生成能被所有人猜出的明显线索。当明确告知模型存在共享背景知识时高级推理模型能将直白线索减少三至五成但难以在未被告知时主动推断共同基础的存在。副文本因素如作者姓名和读者人设显著影响寓言解读提供正确背景信息可将模型的历史事件识别准确率从两成提升至七成以上。在最具挑战的伊索作者任务中模型表现不佳成功率极低且一旦模型被预设为持不同政见者其通过审查的能力几乎降为零。个人观点论文将对潜台词的定性讨论转化为可量化的动态评估揭示了当前大模型缺乏对听众认知状态的灵活建模能力还指出了副文本在引导模型理解深层含义中的关键作用。