文章核心内容与创新点总结核心内容本文聚焦Transformer在n元马尔可夫链数据上的上下文学习(ICL)机制,通过分析含相对位置嵌入、多头softmax注意力和归一化前馈网络的双层Transformer训练动态,证明梯度流会收敛到实现“广义归纳头”(GIH)机制的极限模型。该模型中,第一层注意力充当“复制器”复制窗口内历史token,前馈网络(FFN)作为“选择器”基于修正χ²互信息筛选相关父token,第二层注意力作为“分类器”通过特征相似度生成输出。同时明确了训练的三阶段动态:FFN学习潜在父集、第一层注意力头聚焦单个父token、第二层注意力权重增长完善分类功能。创新点首次从理论上阐明Transformer各组件(相对位置嵌入、多头注意力、FFN、归一化)协同赋能ICL的机制,突破现有研究仅关注简化模型或单一组件的局限。提出“广义归纳头”机制,将传统归纳头扩展到多父token场景,通过修正χ²互信息平衡信息丰富度与模型复杂度,实现n元马尔可夫链的ICL。严格证明梯度流的三阶段收敛特性,量化各阶段参数演化速率(指数级、多项式级、对数级),并通过仿真实验验证理论结论。拓展了ICL的适用场景,不仅支持单token预测,还可推广到序列交叉熵损失,且模型在不同序列长度和先验分布下具有良好泛化性。英文部分翻译(Markdown格式)Abstract上下文