2025_NIPS_Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers

张

张建站

2026/5/13 10:04:14

10分钟阅读

2025_NIPS_Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers

文章核心内容与创新点总结核心内容本文聚焦Transformer在n元马尔可夫链数据上的上下文学习（ICL）机制，通过分析含相对位置嵌入、多头softmax注意力和归一化前馈网络的双层Transformer训练动态，证明梯度流会收敛到实现“广义归纳头”（GIH）机制的极限模型。该模型中，第一层注意力充当“复制器”复制窗口内历史token，前馈网络（FFN）作为“选择器”基于修正χ²互信息筛选相关父token，第二层注意力作为“分类器”通过特征相似度生成输出。同时明确了训练的三阶段动态：FFN学习潜在父集、第一层注意力头聚焦单个父token、第二层注意力权重增长完善分类功能。创新点首次从理论上阐明Transformer各组件（相对位置嵌入、多头注意力、FFN、归一化）协同赋能ICL的机制，突破现有研究仅关注简化模型或单一组件的局限。提出“广义归纳头”机制，将传统归纳头扩展到多父token场景，通过修正χ²互信息平衡信息丰富度与模型复杂度，实现n元马尔可夫链的ICL。严格证明梯度流的三阶段收敛特性，量化各阶段参数演化速率（指数级、多项式级、对数级），并通过仿真实验验证理论结论。拓展了ICL的适用场景，不仅支持单token预测，还可推广到序列交叉熵损失，且模型在不同序列长度和先验分布下具有良好泛化性。英文部分翻译（Markdown格式）Abstract上下文

将串口打印的日志，同时备份到sd卡里

将串口打印的日志，同时备份到sd卡里#include <stdio.h> #include <unistd.h> #include <pthread.h> #include <string.h> #include <stdlib.h> #include <errno.h>static int pipe_fd[2] {-1, -1};static int stdout_backup …...

2026/5/13 9:53:45 阅读更多 →

java学习笔记——接口、多态

接口一、介绍以及使用1.接口接口是更加彻底的抽象，它定义了一种规范/协议。2.定义// interface 关键字定义接口 public interface USB {// 抽象方法（public abstract 可以省略）void connect();void disconnect(); }3.实现// implements 关键…...

2026/5/13 9:52:42 阅读更多 →

混合方法研究如何做“整合”？从数据到结论的连接技巧

在当今复杂多变的研究环境中，单一的定量或定性研究方法往往难以提供对现象的全面理解。此时，混合方法研究（Mixed Methods Research, MMR）以其独特的优势脱颖而出，它系统地整合定量和定性数据，旨在获得更深入…...

2026/5/13 9:51:49 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/13 10:41:29 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/13 8:57:11 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/12 9:54:02 阅读更多 →