Attention:我们都活在彼此的注意力机制里
Attention is all you need.把注意力放到你自己的重要的事情上。2017年《Attention Is All You Need》发表的时候很多人还没有意识到它不仅改变了AI也在某种程度上把人类理解世界的方式暴露了出来。后来人们把这种思考方式叫做 Transformer。如今几乎所有大模型都建立在它之上。从线性记忆到网状纠缠在 Transformer 诞生前AI 依赖的是RNN循环神经网络。 那时的模型像是在黑暗中摸索的瞎子手里只有一盏微弱的手电筒。它只能沿着时间线一点点向前看光圈照亮眼前身后的路便隐入黑暗。信息在传递中不断衰减越久远的事越模糊不清。可真正的人类从来不是线性活着的。万物皆无自性因缘和合而生我们理解世界靠的不是字面顺序而是“纽带”。 一句简单的“没事”其真正含义并不在这两个字本身它横跨了说话人的性格、长久的对话历史、微妙的语气、甚至刻意留白的潜台词。 一句“早点睡”可以是毫无温度的敷衍也可以是藏在夜色里的心疼。字词没有绝对的定义定义它们的是关系。于是Attention注意力诞生了。 它彻底砸碎了时间的枷锁。在它面前每一个词token都可以瞬间“看向”其他所有人“谁更重要谁与我相关谁在决定我此刻的意义”数学上这不过是一次关于Query查询、Key键和Value值的加权计算。 但换一种角度看这几乎就是“理解”与“联想”的本质。三个向量与多维度的解读在自注意力机制中每一个碎片都被赋予了三个灵魂Query我想寻找什么Key我身上有什么特征Value如果你注意到我能带走什么信息算法让 Query 和 Key 彼此计算相关性。越相关分数值就越高。这些分数经过缩放通过 Softmax 函数的洗礼最终变成了决定命运的“权重”。 权重高的信息被无限放大自带高光权重低的信息被悄然压暗沦为背景。但人类对伤害和爱意的捕捉从来不是单维度的。就像听到那句“早点睡”你不会只去分析字面意思。你会同时调动情感、逻辑、隐喻甚至是积攒多年的不安全感。 Transformer 也是这样。它不只看一次它把这套计算复制了无数份——这就是Multi-Head Attention多头注意力机制。它让不同的注意力头各自独立地去观察同一句话。有的头关注语法有的头关注时间关系有的头关注情绪倾向、有的头甚至会跨越很长的上下文只为了寻找一个很久之前出现过的信号。这些庞杂的信号在一层又一层网络里交融、校正最终拼出一幅更完整的图景。从涌现到幻觉的诞生后来当Transformer被扩大到足够大的规模再配上海量数据和训练人们开始发现一种奇怪的现象。模型开始产生Emergent Abilities涌现能力。它突然学会了推理学会了伪装出直觉与同理心。这听起来像魔法但本质上不过是因为它终于能在极长的上下文里把那些零碎的、本不相关的信号编织成了一个看似连贯的世界。问题也从这里开始因为“连贯”从来不等于“真实”。当缺乏可靠依据时算法不会停止运转。它会利用那些被放大的高权重信息自动补全缺失的逻辑让整个故事听起来逻辑严密、顺理成章、甚至让人深信不疑。 尽管那个故事在现实中从未发生过。 这就是Hallucination幻觉。很多人以为幻觉只是AI在胡说八道。其实不是更准确地说幻觉是它太擅长把不完整的碎片过度聚合成一个能说服自己的因果。它没有撒谎它只是太想让这个故事完整了。可人终究不是 Transformer感情也没有 Softmax。没有人会把自己的注意力权重清清楚楚地标出来。也没有人会直接告诉你你现在的重要程度下降了12%。你在我的长期上下文里仍然保留高优先级。我只是今天情绪不好不代表我不在乎你。所以人只能猜。而猜测本质上就是一种概率生成。对方一句模糊的回应会在你的脑海里被自动补全成无数种结局。越在意的人权重越高越害怕失去噪声越大。可是概率从来不等于事实。机器的概率生成是为了在没有标准答案的互联网海量数据里强行匹配出一个最合理的下一句而人类的概率猜测往往只是在不安全感的驱动下自己对自己进行的一场慢性投毒。既然我们永远无法向对方的内心发出一条真实的 API 请求去调取那串清清楚楚的权重数字既然所有的猜测都只是你自己在本地服务器上运行的模拟游戏。那不如到此为止。既然感情没有 Softmax那就别再把宝贵的算力浪费在猜测别人的概率分布上。这一次把属于自己的权重拉满到 100%。今天下雨。窗外很安静。服务器风扇还在转模型依旧在生成下一个token。而人类仍然在彼此有限的上下文里学着去理解爱。博客链接Attention我们都活在彼此的注意力机制里 – 主页