CANN/cannbot-skills：GQA/MHA注意力层

张

张建站

2026/5/9 11:22:48

10分钟阅读

Attention 层GQA / MHA 标准路径【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills参考模型cann-recipes-infer/models/qwen3_moe/MoE、cann-recipes-infer/models/gpt_oss/Dense核心特征标准多头 / 分组查询注意力KV Cache 存完整的 K/V。Prefill 和 Decode 走不同 FA 参数。Prefill 链路# ─── Pre-Norm ─── hidden_states, residual npu_add_rms_norm(residual, hidden_states, weight, eps) # 首层无 residual 时退化为 npu_rms_norm # ─── QKV 投影 ─── q, k, v qkv_proj(hidden_states).split(...) # ─── QK Head Norm部分模型有如 qwen3-moe─── q npu_rms_norm(q, ...) k npu_rms_norm(k, ...) # ─── RoPE ─── q, k npu_apply_rotary_pos_emb(q, k, cos, sin, layoutBSH) # ─── KV Cache 写入 ─── scatter_update_(past_key, kv_len, k, dim-2) scatter_update_(past_val, kv_len, v, dim-2) # ─── Flash Attention用当前 batch 的 k/v─── output npu_fused_infer_attention_score(q, k, v, sparse_mode3, ...) # ─── O 投影 ─── output o_proj(output)Decode 链路# ─── Pre-Norm ─── hidden_states, residual npu_add_rms_norm(residual, hidden_states, weight, eps) # ─── QKV 投影 ─── q, k, v qkv_proj(hidden_states).split(...) # ─── QK Head Norm ─── q npu_rms_norm(q, ...) k npu_rms_norm(k, ...) # ─── RoPE ─── q, k npu_apply_rotary_pos_emb(q, k, cos, sin, layoutBSH) # ─── KV Cache 写入 ─── scatter_update_(past_key, kv_len, k, dim-2) scatter_update_(past_val, kv_len, v, dim-2) # ─── Flash Attention用完整 cache─── output npu_fused_infer_attention_score(q, past_key, past_val, actual_seq_lengths_kv..., ...) # ─── O 投影 ─── output o_proj(output)Prefill vs Decode 关键差异环节PrefillDecodeFA 的 KV 输入当前 batch 的 k/v非 cache完整 past_key/past_valuecacheFA 参数sparse_mode3causal mask推荐无sparse_mode传actual_seq_lengths_kv【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

抖音批量下载工具：5分钟搞定无水印内容保存

抖音批量下载工具：5分钟搞定无水印内容保存【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音批…...

2026/5/9 11:18:31 阅读更多 →

Taotoken模型广场如何帮助开发者快速对比与选择合适模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken模型广场如何帮助开发者快速对比与选择合适模型当开发者需要为大语言模型应用选择基础模型时，常常面临一个现…...

2026/5/9 11:12:45 阅读更多 →

【大白话说Java面试题】【Java基础篇】第38题：两个对象的hashCode()相同，则 equals()是否也一定为 true？

📌 专栏：大白话说Java面试题 — 01-Java基础篇第38题：两个对象的hashCode()相同，则 equals()是否也一定为 true？ 📚 回答： 核心概念： 在 Java 中，hashCode() 和 equal…...

2026/5/9 11:08:55 阅读更多 →

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程【免费下载链接】Autovisor 2025智慧树刷课脚本基于Python Playwright的自动化程序 [有免安装版] 项目地址: https://gitcode.com/gh_mirrors/au/Autovisor 你是否厌倦了每天手动点击播放、等待…...

2026/5/7 18:12:05 阅读更多 →

ModelScope Auto Proxy：智能路由网关，零成本统一调用免费大模型API

1. 项目概述与核心价值如果你和我一样，是个重度依赖 AI 编程工具（比如 Cursor、Cline）的开发者，那你肯定对 OpenAI 的 API 调用成本又爱又恨。爱的是它强大的能力，恨的是账单上的数字。最近，国内的开源社…...

2026/5/9 5:30:52 阅读更多 →

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程）

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程） 当你第一次拿到AOCODARC H7DUAL这块飞控板时，可能会被密密麻麻的引脚和复杂的配置选项吓到。别担心，这篇教程将带你从零开始&#xff…...

2026/5/7 19:32:04 阅读更多 →

League Akari：你的英雄联盟游戏体验进化指南

League Akari：你的英雄联盟游戏体验进化指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 想象一下这样的场景：你正在…...

2026/5/7 19:28:13 阅读更多 →