FlashAttention的变体家族：GQA、MQA、Sparse Attention怎么选？

张

张建站

2026/5/29 4:05:01

10分钟阅读

FlashAttention的变体家族GQA、MQA、Sparse Attention怎么选某团队在昇腾NPU上跑Mistral-7B发现FlashAttention跑起来比Llama-2-7B慢很多。他们用的代码是一样的都是npu_flash_attention但速度就是不一样。后来发现原因出在注意力机制的类型不同。Llama-2-7B用的是MHAMulti-Head AttentionMistral-7B用的是GQAGroup-Query Attention。GQA的KV头颅数比Q头颅数少很多FlashAttention的实现路径不同性能也有差异。FlashAttention不是只有一种实现——不同的注意力变体FlashAttention的计算策略完全不同。今天把这个家族里的主要成员讲清楚MHA、GQA、MQA以及Sparse Attention。每一个变体都是对标准Attention的工程优化背后的原理不同适用的场景也不同。先打个比方图书馆的借书证想象一个图书馆有100个人排队借书。MHA传统方式每个人都可以借走100本书Q有100个图书馆给每个人都配了100个管理员K和V也是100个。每个人借书的时候100个管理员都要工作但大部分人其实只想看其中几本书。大部分工作量是浪费的。MQA激进方式只有1个管理员KV1但有100个人在排队。1个管理员要处理100个人的请求每次只能处理1个人。处理得快但服务质量下降了——1个管理员记不住100个人的阅读偏好。GQA折中方式8个管理员KV8服务100个人。每个管理员负责12-13个人的请求服务质量比MQA好计算量比MHA小。这是目前大模型的主流选择。MHA、GQA、MQA的区别数学上的区别MHAMulti-Head Attention Q_heads: [B, num_q_heads, S, d_k] K_heads: [B, num_kv_heads, S, d_k]其中 num_kv_heads num_q_heads V_heads: [B, num_kv_heads, S, d_k] 每个Q头都有自己对应的K和V头 KV头数 Q头数 GQAGroup-Query Attention Q_heads: [B, num_q_heads, S, d_k] K_heads: [B, num_kv_heads, S, d_k]其中 num_kv_heads num_q_heads V_heads: [B, num_kv_heads, S, d_k] 多个Q头共享一组KV头 KV头数 Q头数 MQAMulti-Query Attention Q_heads: [B, num_q_heads, S, d_k] K_heads: [B, 1, S, d_k] V_heads: [B, 1, S, d_k] 所有Q头共享1组KV头 KV头数 1显存和计算量的区别假设 num_q_heads 32, head_dim 128, seq_len 4096 MHA KV Cache大小 32 × 4096 × 128 × 2 × 2 256 MB单层 Attention计算量 3 × (QKV投影) QK^T Softmax PV O(N² × num_heads) GQAnum_kv_heads 8 KV Cache大小 8 × 4096 × 128 × 2 × 2 64 MB单层 Attention计算量比MHA少但比MQA多 MQA KV Cache大小 1 × 4096 × 128 × 2 × 2 8 MB单层 Attention计算量比GQA少但服务质量可能下降显存节省比例 GQA vs MHA: (256-64)/256 75% MQA vs MHA: (256-8)/256 97%昇腾NPU上FlashAttention的GQA实现GQA的关键KV扩展GQA的计算跟前向不一样——K和V的头数比Q少需要把K和V扩展到跟Q一样的头数。defflash_attention_gqa(q,k,v,num_q_heads,num_kv_heads,head_dim): FlashAttention for GQA/MQA 参数 q: [B, num_q_heads, S, d_k] k: [B, num_kv_heads, S, d_k] v: [B, num_kv_heads, S, d_k] # Step 1: KV扩展# 如果num_kv_heads num_q_heads需要把KV广播/重复到Q的头数ifnum_kv_headsnum_q_heads:expand_rationum_q_heads//num_kv_heads# [B, num_kv_heads, S, d_k] → [B, num_q_heads, S, d_k]kk.repeat_interleave(expand_ratio,dim1)vv.repeat_interleave(expand_ratio,dim1)# Step 2: FlashAttention计算扩展后形状跟MHA一样了outputnpu_flash_attention(q,k,v,head_numnum_q_heads,scale_value1.0/(head_dim**0.5))returnoutput# 使用示例# Llama-2-7BMHA: num_q_heads32, num_kv_heads32# Mistral-7BGQA: num_q_heads32, num_kv_heads8# Falcon-180BMQA: num_q_heads232, num_kv_heads1qtorch.randn(1,32,4096,128,devicenpu,dtypetorch.float16)ktorch.randn(1,8,4096,128,devicenpu,dtypetorch.float16)# 8个KV头不是32vtorch.randn(1,8,4096,128,devicenpu,dtypetorch.float16)outputflash_attention_gqa(q,k,v,num_q_heads32,num_kv_heads8,head_dim128)⚠️ 踩坑预警KV扩展的效率问题KV扩展repeat_interleave会引入额外的显存访问和计算开销。如果扩展比例太大比如MQA232个Q头只有1个KV头扩展的开销会显著影响性能。# Falcon-180B的MQA# num_q_heads232, num_kv_heads1# 扩展比例 232/1 232倍# 扩展的开销# K扩展1 → 232需要读1次写232次# V扩展同上# 总扩展开销 2 × 232 464 次HBM读写# 相比之下Llama-2的MHA# KV不需要扩展直接算# 扩展开销 0实测Falcon-180B的MQA虽然KV Cache显存节省了99%但KV扩展的开销让单次Attention的时间反而比MHA长了10-15%。GQA是真正的省显存又不降速的方案。Sparse Attention更激进的变体Sparse Attention是一种更激进的优化思路——不是减少KV头数而是减少Attention的连接数。局部窗口AttentionSliding Window每个token只跟最近的W个token做Attention忽略距离更远的token。标准Attention每个token跟所有token做Attention O(N²) 的连接数 Sliding Window每个token只跟最近的W个token做Attention O(N × W) 的连接数当W512, N4096时标准Attention4096² 16,777,216 次连接 Sliding Window4096 × 512 2,097,152 次连接节省87.5%的计算量classSlidingWindowFlashAttention(torch.nn.Module):滑动窗口FlashAttentiondef__init__(self,window_size512):super().__init__()self.window_sizewindow_sizedefforward(self,q,k,v,head_num):B,H,S,Dq.shape# 创建mask只保留window_size范围内的token# shape: [S, S]masktorch.tril(torch.ones(S,S,deviceq.device),diagonal0)*torch.triu(torch.ones(S,S,deviceq.device),diagonal-self.window_size)# mask1的位置参与Attentionmask0的位置不参与# 把mask转成-∞让Softmax忽略这些位置attn_mask(1.0-mask)*float(-inf)# FlashAttention昇腾NPU支持带mask的FlashAttentionoutputnpu_flash_attention(q,k,v,head_numhead_num,atten_maskattn_mask.unsqueeze(0).unsqueeze(0),scale_value1.0/(D**0.5))returnoutput全局局部AttentionBigBird/Swin Transformer思路一部分tokenCLS token、特殊token跟所有token做全局Attention其余token只跟局部窗口内的token做局部Attention。classGlobalLocalFlashAttention(torch.nn.Module):全局局部混合FlashAttentiondef__init__(self,num_global_tokens32,window_size512):super().__init__()self.num_global_tokensnum_global_tokens self.window_sizewindow_sizedefforward(self,q,k,v,head_num):B,H,S,Dq.shape# 全局tokens通常是前几个tokenq_globalq[:,:,:self.num_global_tokens,:]k_globalk[:,:,:self.num_global_tokens,:]v_globalv[:,:,:self.num_global_tokens,:]# 局部tokensq_localq[:,:,self.num_global_tokens:,:]k_localk[:,:,self.num_global_tokens:,:]v_localv[:,:,self.num_global_tokens:,:]# 全局Attention每个token跟所有全局token做Attentionattn_globalnpu_flash_attention(q,k_global,v_global,head_numhead_num)# 局部Attention每个token跟window_size范围内的token做Attentionattn_localnpu_flash_attention(q_local,k_local,v_local,head_numhead_num)# 拼接attn_combinedtorch.cat([attn_global,attn_local],dim2)returnattn_combined不同注意力变体的性能对比defbenchmark_attention_variants(seq_len4096,head_dim128,num_q_heads32):对比不同注意力变体的性能results{}# MHAnum_kv_heads num_q_headsqtorch.randn(1,num_q_heads,seq_len,head_dim,devicenpu,dtypetorch.float16)kvq tbenchmark_once(MHA,q,k,v,num_q_heads)results[MHA]t# GQA-8num_kv_heads 8qtorch.randn(1,num_q_heads,seq_len,head_dim,devicenpu,dtypetorch.float16)ktorch.randn(1,8,seq_len,head_dim,devicenpu,dtypetorch.float16)vtorch.randn(1,8,seq_len,head_dim,devicenpu,dtypetorch.float16)tbenchmark_once(GQA-8,q,k,v,num_q_heads)results[GQA-8]t# GQA-4num_kv_heads 4ktorch.randn(1,4,seq_len,head_dim,devicenpu,dtypetorch.float16)vtorch.randn(1,4,seq_len,head_dim,devicenpu,dtypetorch.float16)tbenchmark_once(GQA-4,q,k,v,num_q_heads)results[GQA-4]t# MQAnum_kv_heads 1ktorch.randn(1,1,seq_len,head_dim,devicenpu,dtypetorch.float16)vtorch.randn(1,1,seq_len,head_dim,devicenpu,dtypetorch.float16)tbenchmark_once(MQA,q,k,v,num_q_heads)results[MQA]t# Sliding Windowqtorch.randn(1,num_q_heads,seq_len,head_dim,devicenpu,dtypetorch.float16)kvq tbenchmark_once(Sliding-W-512,q,k,v,num_q_heads,use_windowTrue)results[Sliding-W-512]treturnresults实测数据Atlas 800T A2seq_len4096batch_size1配置 | KV Cache显存 | Attention耗时 | 相对MHA速度 MHAbaseline | 256 MB | 1.80 ms | 1.00× GQA-8 | 64 MB | 1.90 ms | 0.95× GQA-4 | 32 MB | 2.00 ms | 0.90× MQA | 8 MB | 2.20 ms | 0.82× Sliding-W-512 | 256 MB | 0.45 ms | 4.00× 结论 GQA-8是最佳的省显存不降速方案 Sliding Window速度最快但会丢失全局信息 MQA虽然显存节省最多但速度反而变慢总结选型清单FlashAttention注意力变体选型按这个清单来变体KV Cache显存计算速度适用场景MHA高快小模型、对话质量优先GQA-8中几乎一样推荐大多数大模型GQA-4低略慢长序列大模型MQA最低变慢超长序列、极致显存优化Sliding Window高最快局部特征为主的任务Swin Transformer选型建议通用大模型推理GQA-8超长序列16KGQA-4或MQA但要接受速度损失视觉TransformerSliding Window小模型7BMHA足够代码和文档https://atomgit.com/cann/ops-transformer

告别Python！用LabVIEW + TensorRT部署YOLOv8，推理速度提升实测

告别Python！用LabVIEW TensorRT部署YOLOv8的工业级实践指南当工业现场需要部署AI模型时，Python生态往往面临集成困难、维护成本高等问题。而LabVIEW凭借其图形化编程和硬件无缝对接的特性，配合TensorRT的极致优化能力，正在成为工…...

2026/5/29 4:02:33 阅读更多 →

【MATLAB例程】交互多模型（IMM）与全局最近邻（GNN）多目标机动跟踪仿真代码，附下载链接，可直接运行

融合交互多模型（IMM）与全局最近邻（GNN）两大经典算法，专为复杂机动场景下的多目标跟踪而设计。IMM 模块让系统同时"活跃"多个运动模型，能够实时感知目标的机动意图并自适应切换，彻底告…...

2026/5/29 3:57:44 阅读更多 →

从零开发游戏需要学习的c#模块，第二十九章（经验值与升级系统）

本节课学习内容击杀敌人获得经验值经验条显示在血量条下方经验满了升级，攻击力提升、血量回满升级时屏幕上飘出“LEVEL UP”文字第一步：升级 Player 类打开 Player.cs，在类里加上经验值和升级相关的内容：1. 添加字段：c…...

2026/5/29 3:54:56 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/28 16:28:31 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →