TPAMI 2026 | 线性复杂度全局建模！ATD-U 多尺度变体攻克图像去噪与 JPEG 去伪影难题

张

张建站

2026/6/20 0:10:06

10分钟阅读

TPAMI 2026 | 线性复杂度全局建模！ATD-U 多尺度变体攻克图像去噪与 JPEG 去伪影难题

点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在图像超分辨率、去噪、JPEG去块等底层视觉任务中Transformer凭借强大的长程依赖建模能力成为主流架构但始终绕不开一个核心难题自注意力的二次计算复杂度迫使多数方法将注意力限制在局部窗口导致感受野有限、性能难以突破。近期发表的ATDAdaptive Token Dictionary模型为解决这一痛点提供了全新思路——通过引入自适应令牌字典以线性复杂度实现全局依赖建模在多个图像复原任务中刷新SOTA还兼顾了计算效率论文信息题目 ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration基于自适应令牌字典改进的图像复原Transformer作者 Leheng Zhang, Wei Long, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu一、痛点直击现有Transformer为何力不从心图像复原的核心是从退化图像中重建高质量内容而Transformer的自注意力本是捕捉图像自相似性的利器但二次计算复杂度让它陷入两难局部窗口注意力把注意力限制在小窗口内虽降低计算量却只能捕捉局部特征面对复杂纹理、重复结构的图像无法利用全局相似信息扩大窗口/稀疏注意力扩大窗口会导致计算量暴增稀疏注意力虽实现全局交互却易丢失特征相关性难以平衡性能与效率。传统字典学习方法虽能挖掘图像先验但无法与Transformer架构高效融合。ATD的核心巧思正是将字典学习与Transformer注意力机制结合既引入外部先验又实现全局高效建模。二、ATD核心框架全局建模的关键设计先来看ATD的整体架构图2无论是面向超分辨率的ATD基础版还是面向去噪/去块的ATD-UU-Net变体都遵循浅层特征提取-深层特征提取-图像重建三阶段设计核心亮点集中在深层特征提取的ATD Transformer层包含令牌字典交叉注意力TDCA、自适应类别化多头自注意力AC-MSA、类别感知前馈网络CFFN三大核心模块且全程保持线性计算复杂度。图2ATD左与ATD-U右整体架构图前者为残差中的残差结构后者为U型编码器-解码器结构均集成核心注意力模块1. 令牌字典交叉注意力TDCA引入外部图像先验不同于传统自注意力只关注图像内部特征ATD先构建一个可学习的令牌字典——这个字典就像图像结构百科从海量训练数据中学习典型的图像结构模式作为外部先验知识。TDCA让输入图像特征与令牌字典做交叉注意力交互通过余弦相似度计算输入特征与字典条目的相关性筛选出最匹配的字典条目来增强输入特征。为解决注意力权重稀释问题ATD还对缩放因子做了对数缩放优化让模型能精准聚焦最相关的字典条目图4就像查字典时只锁定与目标最匹配的词条而非模糊匹配。图4TDCA注意力权重可视化优化后注意力值区分度显著提升模型能精准聚焦最相关字典条目2. 自适应类别化多头自注意力AC-MSA全局聚合相似特征有了令牌字典的类别指引ATD不再按空间坐标划分注意力窗口而是根据输入特征与字典条目的相关性将特征分成不同类别——同一类别的特征对应图像中结构相似的区域哪怕这些区域分布在图像的不同位置图5。图5AC-MSA类别划分流程先按字典相关性分大类再均分小子类实现全局相似特征聚合这种内容感知的分组方式让注意力能跨局部窗口全局聚合相似特征。对比传统窗口注意力图6bAC-MSA的注意力组遍布整个图像图6c/d哪怕是建筑纹理、文字图案这类跨区域重复的结构也能被精准捕捉彻底突破局部感受野的限制。图6不同自注意力机制对比(b)窗口注意力局限于局部(c/d)AC-MSA实现全局相似特征聚集3. 类别感知前馈网络CFFN自适应融合先验与特征为了让外部字典先验更好地融入特征变换ATD将每个输入特征对应的最相关字典条目作为类别信息嵌入到前馈网络中。这样一来网络能根据不同类别的特征自适应调整变换方式进一步强化特征融合效果让复原后的图像细节更精准。三、实验结果多任务刷新SOTA效率性能双优ATD团队针对图像超分辨率、去噪、JPEG去块三大任务做了全面验证无论是定量指标还是视觉效果都展现出显著优势。1. 图像超分辨率性能与效率兼得定量表现ATD在Urban100、Manga109等经典数据集上全面超越HAT、MambaIRv2等SOTA方法轻量级版本ATD-light也在轻量模型中登顶表1/表2计算效率对比同类方法ATD的GPU内存占用比HAT少30%推理速度比MambaIRv2快25-50%FLOPs仅小幅增加20%却能实现最高0.35dB的性能提升表3视觉效果面对高频细节严重退化的图像如图7ATD能重建出更清晰的纹理和几何结构而其他方法易出现模糊、伪影问题。图7超分辨率视觉对比ATD能精准恢复高频细节优于MambaIRv2、HAT等方法2. 去噪与JPEG去块全局建模显威力针对图像去噪表7/表8和JPEG压缩伪影去除表9任务基于U-Net的ATD-U变体表现同样亮眼去噪任务在彩色/灰度图像去噪的多个数据集、不同噪声水平下ATD-U均优于ART、MambaIR等方法尤其在高分辨率图像上提升更明显JPEG去块在Classic5、Urban100数据集上ATD-U在低质量因子如q10下仍能有效去除压缩伪影恢复清晰纹理图8/9/10。图8图像去噪视觉对比ATD-U有效去除噪声恢复清晰边缘和纹理图9JPEG去块视觉对比ATD-U能消除压缩伪影还原图像细节图10高分辨率图像去块效果ATD-U在复杂纹理区域表现更优3. 消融实验核心模块缺一不可消融实验表4验证了TDCA、AC-MSA、CFFN的有效性TDCA引入外部先验AC-MSA实现全局建模CFFN强化特征融合三者结合让模型达到最佳性能同时字典大小、子类别大小等超参数的调优表5/表6也进一步平衡了性能与计算开销。四、总结为图像复原Transformer开辟新方向ATD的核心贡献在于将传统字典学习与Transformer注意力机制深度融合通过自适应令牌字典实现了外部先验引入-全局特征聚合-自适应特征融合的全流程优化既突破了局部窗口注意力的限制又保持了线性计算复杂度。无论是超分辨率的ATD/ATD-light还是多任务的ATD-U都在多个基准测试中证明了自身的优越性为图像复原任务提供了更高效、更精准的解决方案。未来这一思路还可拓展到更多底层视觉任务甚至为其他Transformer架构的效率优化提供参考——毕竟在追求高性能的同时兼顾实用性才是算法落地的关键。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三上海交大视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~