我们可以总结一下它实现混合注意力的逻辑：

张

张建站

2026/6/26 6:24:11

10分钟阅读

如果再站高点我们会发现一个更基础的问题模型究竟应该如何表达空间信息在 CNN 路线中这一问题通过卷积与池化的结构归纳被隐式解决。而在之前的 Transformer 路线中则通过位置编码 PE 将位置信息显式注入到特征表示中。现在我们再回到 Transformer 路线的位置编码演化中从原始 Transformer 的正余弦固定编码到 ViT 的可学习位置编码虽然更加灵活但其根本逻辑是相通的PE 描述的是“每个位置是什么”而不是“位置之间是什么关系”。也就是说这是一种绝对位置编码这在 NLP 中存在优化空间当扩展到二维的 CV 任务中更出现了新的局限性在视觉中绝对位置的语义本身就是不稳定的。同一只猫在图像左上角和右下角它的绝对位置编码完全不同但网络应该以相同的逻辑去处理它。卷积的设计只关注相对位置因此规避了这一问题而 Transformer 的解决方案就是相对位置编码Relative Position EncodingRPE。实际上在之前的 Swin 中 RPE 的逻辑就已经被应用这几篇展开 RPE 的相关逻辑串联之前的 Swin作为之后的混合架构的前置内容。1. RPE#18 年的论文 Self-Attention with Relative Position Representations 中首次将相对位置编码引入了 Transformer 的自注意力机制它的核心思路是这样的在注意力计算过程中额外引入两组可学习的向量分别用于修改 key 和 value 的表示。分点展开如下1.1 相对位置参数表#显然和不是凭空出现我们为其定义了分别定义了一个相对位置参数表。具体来说假设我们限制最大相对距离为比如 -10 到 10那么模型会定义两个参数表Key 相对位置表Value 相对位置表不难理解就是最大相对距离里的各种取值可能就是表示维度。现在对任意两个 token计算相对距离为超过范围就会截断或边界共享然后查表这就是两组可学习的向量的由来。而它们各自的语义是这样的控制“注意力权重偏置”。控制“信息内容偏移”。下面就展开结构看看如何实现这两组参数的语义。1.2 加入到注意力打分中的 #在标准注意力里打分函数是加法型 RPE 的第一步是把 key 改写成代入后得到展开后的结构是这样的显然原本的注意力分数只反应“语义相似度”而现在又多了一项“距离相关性”。1.3 加入聚合计算中的 #作用在权重计算阶段而作用在信息聚合阶段。已知得到注意力权重后聚合信息的标准输出为现在RPE 将 value 改写为于是输出变成了我们知道 value 本身的语义是 token 携带的真实信息在这里与其加和就是在注入学习得到的相对位置信息。总结来说最初的RPE 的核心逻辑是这样的建模相对距离在 K/V 表示空间中注入“相对位置向量偏置”让注意力从“内容函数”变成“内容位置函数”。2. RPE 的局限#在最初的 RPE 逻辑中所有位置信息只能以“线性加法”的方式影响注意力无法形成更复杂的非线性交互。而且其依赖固定长度的相对位置表当序列长度超出训练范围时只能截断或共享边界 embedding导致外推能力较弱。于是在 RPE 提出后就出现了分裂式的发展趋势其中有简要的结构增强有从一维到二维的推广还有重构式的新型设计涉及方向较广我们以时间线顺序在后几篇展开。

vant移动端年月日区间选择弹窗

这是一个基于Vant组件库实现的日期范围选择器组件。<template><div click"onCancel" class"range-date"><van-popup v-model"showPopupvalue" click.stop round position"bottom" :style"{ height: 60% }"&g…...

2026/6/26 6:20:46 阅读更多 →

如何用NxNandManager轻松管理你的Switch NAND存储：免费开源工具完整指南

如何用NxNandManager轻松管理你的Switch NAND存储：免费开源工具完整指南【免费下载链接】NxNandManager Nintendo Switch NAND management tool : explore, backup, restore, mount, resize, create emunand, etc. (Windows) 项目地址: https://gitcode.com/gh_m…...

2026/6/26 6:18:22 阅读更多 →

LoRA、QLoRA、AdaLoRA、IA³全试遍！显存告急？这四种微调方法差距远超想象！

几个月前我刚入坑大模型微调的时候，就被一堆缩略词搞晕了。LoRA、QLoRA、AdaLoRA、IA……每个看起来都差不多，每个都说自己是最优解。我当时心想，不就是微调嘛，全量微调不行吗？干嘛整这么多花里胡哨的。结果呢&#x…...

2026/6/26 6:16:40 阅读更多 →

手撕CNN：从卷积计算到工程落地的全链路解析

1. 这不是“讲概念”的课，是带你亲手拆开CNN看齿轮怎么咬合你点开这篇，大概率不是为了背定义——可能刚被导师甩来一篇CVPR论文，满页的feature map、stride、padding看得头皮发麻；也可能在调一个图像分类模型，loss曲线…...

2026/6/25 10:56:32 阅读更多 →

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PVZ Toolkit是一款专为经典游戏植物大战僵尸设计的综合修改器，它为玩家…...

2026/6/25 6:32:44 阅读更多 →

嵌入式功能安全实践：NXP IEC60730B安全库核心测试与集成指南

1. 项目概述与功能安全背景在嵌入式系统开发领域，尤其是涉及家电、工业控制、汽车电子等安全关键型应用时，仅仅实现功能正确是远远不够的。系统必须在整个生命周期内，具备检测并响应内部硬件故障的能力，以防止因随机硬件失效导致…...

2026/6/25 10:56:32 阅读更多 →

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher XXMI启动器是一款专为二次元游戏模组管理设计的开源平台…...

2026/6/25 10:56:32 阅读更多 →