CANN/torchtitan-npu融合算子适配

张

张建站

2026/5/9 14:22:30

10分钟阅读

NPU 融合算子适配【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-nputorchtitan_npu 在torchtitan_npu/converters/kernels下定义了多个 torchtitan ModelConverter 。在启动模型训练任务时它们会根据用户配置自动将模型中的原始模块替换为基于 NPU 融合算子的实现从而实现模型在 NPU 平台上的亲和适配。如何配置所有融合算子均通过在训练配置 TOML 文件例如torchtitan_npu/models/deepseek_v32/train_configs/deepseek_v32_671b_debug.toml或实际启动训练时--job.config_file所指向的路径的[model]节中的converters列表中添加对应的配置项来启用。示例[model] name deepseek_v32 flavor debugmodel hf_assets_path ./assets/hf/DeepSeek-V3.2 converters [npu_dsa, npu_rms_norm, npu_permute, npu_gmm]当前版本支持以下 ModelConverters 前往对应章节查看功能介绍及启用方式DSAGMMPermuteRMSNormRope关于本仓库适配的各融合算子的详细说明请查看对应的 NPU 融合算子开发者文档。DSA (DeepSeek Sparse Attention)DSA 是DeepSeek-V3.2中引入的一种特殊注意力机制主要由图中的两个模块构成Lightning Indexer筛选出少量高价值token的索引这些索引被用于高效的稀疏 Attention 计算(图中 Multi-Query Attention部分)。针对 DeepSeek V3.2 模型的 Attention 模块将以上两种核心组件替换为对应的 NPU 融合算子。具体对应关系如下DeepSeek V3.2 Attention 组件NPU融合算子Lightning Indexer 前向计算npu_lightning_indexerLightning Indexer 反向计算梯度 Lossnpu_sparse_lightning_indexer_grad_kl_loss稀疏注意力计算npu_sparse_flash_attention配置示例[model] converters [... npu_dsa, ...] # 添加 npu_dsa 配置项ModelConverter 源码路径torchtitan_npu/converters/kernels/dsa.py相关 NPU 融合算子开发者文档npu_lightning_indexernpu_sparse_lightning_indexer_grad_kl_lossnpu_sparse_flash_attentionGMMGrouped MatMul在 MoE 模块中每个专家执行前馈网络FFN运算如 Swiglu FFN输入先经过升维变换w1再通过激活函数最后经过降维变换w2得到输出。由于各专家执行结构相同的矩阵乘法为了将同类矩阵运算合并为一次算子调用提升计算效率本ModelConverter 引入分组矩阵乘法GMM算子npu_grouped_matmul。该算子接收 Permute 模块输出的重排后 token 及对应的专家索引在一次调用中并行计算所有专家的同一线性层如所有专家的w1。配置示例[model] converters [... npu_gmm, ...] # 添加 npu_gmm 配置项ModelConverter 源码路径torchtitan_npu/converters/kernels/gmm.py相关 NPU 融合算子开发者文档npu_grouped_matmulPermuteMoE 前向计算中为了利用 GMM 提升计算效率token 需要根据 MoE Router 为每个 token 分配的专家以特定顺序重排输出重排列后的 token 及其对应的专家索引计算完成后再将结果恢复至原始 token 顺序。本 ModelConverter 将“重排”和“恢复”操作替换为基于npu_moe_token_permute和npu_moe_token_unpermute算子的实现。配置示例[model] converters [... npu_permute, ...] # 添加 npu_permute 配置项ModelConverter 源码路径torchtitan_npu/converters/kernels/permute.pyRMSNormRMSNorm 通过计算输入张量每个样本的平方均值的平方根来稳定深层网络的训练。本 ModelConverter 将模型中的 RmsNorm 操作替换为基于npu_rms_norm融合算子的实现。TOML 配置项npu_rms_norm配置示例[model] converters [... npu_rms_norm, ...] # 添加 npu_rms_norm 配置项ModelConverter 源码路径torchtitan_npu/converters/kernels/rms_norm.py相关 NPU 融合算子开发者文档npu_grouped_matmulRoPERoPE 将 token 位置相关的旋转矩阵应用于自注意力机制中的 Query 和 Key 向量使每对 token 之间的相对位置信息在 Attention 计算中自然包含 Query 和 Key 的乘积。在模型实现中通常预先生成每个位置的旋转角度在 Attention 计算时即时对 Query 和 Key 进行旋转变换。本 ModelConverter 将这一旋转变换操作替换为基于npu_rotary_mul融合算子的实现。配置示例[model] converters [... npu_rope, ...] # 添加 npu_rope 配置项ModelConverter 源码路径torchtitan_npu/converters/kernels/rope.py相关 NPU 融合算子开发者文档npu_rope【免费下载链接】torchtitan-npuAscend Extension for torchtitan项目地址: https://gitcode.com/cann/torchtitan-npu创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANNOpsRand快速安装指南

环境部署【免费下载链接】ops-rand ops-rand是CANN （Compute Architecture for Neural Networks）算子库中提供的随机数生成库。项目地址: https://gitcode.com/cann/ops-rand 基于本项目进行算子调用或算子开发之前，需要参考下述步骤…...

2026/5/9 14:19:37 阅读更多 →

数字身份凭证生态构建：平衡防欺诈与隐私保护的技术实践

1. 项目概述：当“证明你是你”成为一门技术艺术在数字世界里，证明“我是我”这件事，正变得越来越复杂，也越来越关键。无论是登录一个App、申请一笔贷款，还是远程签署一份合同，我们都在不断地交出各种身份信…...

2026/5/9 14:19:36 阅读更多 →

医疗影像AI落地实战：从AGI大模型到临床小模型的对齐与轻量化

1. 项目概述：当AGI遇见医疗影像，从“实验室巨兽”到“临床利器”的必经之路如果你最近关注人工智能，尤其是通用人工智能（AGI）的进展，一定会被ChatGPT、GPT-4、Segment Anything Model (SAM)这些“大模型”的…...

2026/5/9 14:14:32 阅读更多 →

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程【免费下载链接】Autovisor 2025智慧树刷课脚本基于Python Playwright的自动化程序 [有免安装版] 项目地址: https://gitcode.com/gh_mirrors/au/Autovisor 你是否厌倦了每天手动点击播放、等待…...

2026/5/9 12:51:47 阅读更多 →

ModelScope Auto Proxy：智能路由网关，零成本统一调用免费大模型API

1. 项目概述与核心价值如果你和我一样，是个重度依赖 AI 编程工具（比如 Cursor、Cline）的开发者，那你肯定对 OpenAI 的 API 调用成本又爱又恨。爱的是它强大的能力，恨的是账单上的数字。最近，国内的开源社…...

2026/5/9 5:30:52 阅读更多 →

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程）

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程） 当你第一次拿到AOCODARC H7DUAL这块飞控板时，可能会被密密麻麻的引脚和复杂的配置选项吓到。别担心，这篇教程将带你从零开始&#xff…...

2026/5/9 12:51:47 阅读更多 →

League Akari：你的英雄联盟游戏体验进化指南

League Akari：你的英雄联盟游戏体验进化指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 想象一下这样的场景：你正在…...

2026/5/9 12:51:46 阅读更多 →