Attention：我们都活在彼此的注意力机制里

张

张建站

2026/5/27 1:17:03

10分钟阅读

Attention is all you need.把注意力放到你自己的重要的事情上。2017年《Attention Is All You Need》发表的时候很多人还没有意识到它不仅改变了AI也在某种程度上把人类理解世界的方式暴露了出来。后来人们把这种思考方式叫做 Transformer。如今几乎所有大模型都建立在它之上。从线性记忆到网状纠缠在 Transformer 诞生前AI 依赖的是RNN循环神经网络。那时的模型像是在黑暗中摸索的瞎子手里只有一盏微弱的手电筒。它只能沿着时间线一点点向前看光圈照亮眼前身后的路便隐入黑暗。信息在传递中不断衰减越久远的事越模糊不清。可真正的人类从来不是线性活着的。万物皆无自性因缘和合而生我们理解世界靠的不是字面顺序而是“纽带”。一句简单的“没事”其真正含义并不在这两个字本身它横跨了说话人的性格、长久的对话历史、微妙的语气、甚至刻意留白的潜台词。一句“早点睡”可以是毫无温度的敷衍也可以是藏在夜色里的心疼。字词没有绝对的定义定义它们的是关系。于是Attention注意力诞生了。它彻底砸碎了时间的枷锁。在它面前每一个词token都可以瞬间“看向”其他所有人“谁更重要谁与我相关谁在决定我此刻的意义”数学上这不过是一次关于Query查询、Key键和Value值的加权计算。但换一种角度看这几乎就是“理解”与“联想”的本质。三个向量与多维度的解读在自注意力机制中每一个碎片都被赋予了三个灵魂Query我想寻找什么Key我身上有什么特征Value如果你注意到我能带走什么信息算法让 Query 和 Key 彼此计算相关性。越相关分数值就越高。这些分数经过缩放通过 Softmax 函数的洗礼最终变成了决定命运的“权重”。权重高的信息被无限放大自带高光权重低的信息被悄然压暗沦为背景。但人类对伤害和爱意的捕捉从来不是单维度的。就像听到那句“早点睡”你不会只去分析字面意思。你会同时调动情感、逻辑、隐喻甚至是积攒多年的不安全感。 Transformer 也是这样。它不只看一次它把这套计算复制了无数份——这就是Multi-Head Attention多头注意力机制。它让不同的注意力头各自独立地去观察同一句话。有的头关注语法有的头关注时间关系有的头关注情绪倾向、有的头甚至会跨越很长的上下文只为了寻找一个很久之前出现过的信号。这些庞杂的信号在一层又一层网络里交融、校正最终拼出一幅更完整的图景。从涌现到幻觉的诞生后来当Transformer被扩大到足够大的规模再配上海量数据和训练人们开始发现一种奇怪的现象。模型开始产生Emergent Abilities涌现能力。它突然学会了推理学会了伪装出直觉与同理心。这听起来像魔法但本质上不过是因为它终于能在极长的上下文里把那些零碎的、本不相关的信号编织成了一个看似连贯的世界。问题也从这里开始因为“连贯”从来不等于“真实”。当缺乏可靠依据时算法不会停止运转。它会利用那些被放大的高权重信息自动补全缺失的逻辑让整个故事听起来逻辑严密、顺理成章、甚至让人深信不疑。尽管那个故事在现实中从未发生过。这就是Hallucination幻觉。很多人以为幻觉只是AI在胡说八道。其实不是更准确地说幻觉是它太擅长把不完整的碎片过度聚合成一个能说服自己的因果。它没有撒谎它只是太想让这个故事完整了。可人终究不是 Transformer感情也没有 Softmax。没有人会把自己的注意力权重清清楚楚地标出来。也没有人会直接告诉你你现在的重要程度下降了12%。你在我的长期上下文里仍然保留高优先级。我只是今天情绪不好不代表我不在乎你。所以人只能猜。而猜测本质上就是一种概率生成。对方一句模糊的回应会在你的脑海里被自动补全成无数种结局。越在意的人权重越高越害怕失去噪声越大。可是概率从来不等于事实。机器的概率生成是为了在没有标准答案的互联网海量数据里强行匹配出一个最合理的下一句而人类的概率猜测往往只是在不安全感的驱动下自己对自己进行的一场慢性投毒。既然我们永远无法向对方的内心发出一条真实的 API 请求去调取那串清清楚楚的权重数字既然所有的猜测都只是你自己在本地服务器上运行的模拟游戏。那不如到此为止。既然感情没有 Softmax那就别再把宝贵的算力浪费在猜测别人的概率分布上。这一次把属于自己的权重拉满到 100%。今天下雨。窗外很安静。服务器风扇还在转模型依旧在生成下一个token。而人类仍然在彼此有限的上下文里学着去理解爱。博客链接Attention我们都活在彼此的注意力机制里 – 主页

面向对象设计原则（一）

面向对象设计原则为支持可维护性复用而诞生，这些原则蕴含在很多设计模式中，它们是从许多设计方案中总结出的指导性原则。单一职责原则单一原则（Single Responsibility Principle,SRP）是最简单的设计原则，它用来控制类的…...

2026/5/27 1:08:26 阅读更多 →

B站视频转换终极指南：m4s格式快速转为MP4的完整解决方案

B站视频转换终极指南：m4s格式快速转为MP4的完整解决方案【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站收藏的视频突然…...

2026/5/27 0:50:38 阅读更多 →

Linux系统日志分类与查看大全（故障排查必备日志）

一、前言服务器登录失败、服务启动报错、定时任务异常、内核崩溃，所有系统问题都有日志记录。看懂系统日志，故障排查效率提升10倍。本文分类讲解系统默认日志文件作用、实时查看、过滤排查、日志轮转，覆盖运维全部排障场景。二、Linux核心系统…...

2026/5/27 0:40:24 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/25 2:11:12 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →