DeepSeek 自己有一个自研训练框架 HAI‑LLM确实类似 Megatron/DeepSpeed 那种“大模型专用训练框架”适配华为昇腾时主要用的是昇腾那套 MindSpeed‑LLM Megatron‑LM CANN而不是把 HAI‑LLM 整个搬过去。下面分开说清楚。内容由ai生成1. DeepSeek 自己确实有类似 Megatron 的训练框架HAI‑LLM公开资料里写得很明白DeepSeek LLM / V2 / V3 等模型用的都是自研框架HAI‑LLMHighly Adaptive Integrated LLM Training这个框架做的事情跟 Megatron / DeepSpeed 很像支持DP / TP / PP / 序列并行 / 1F1B 流水线等多种并行用ZeRO‑1 / ZeRO‑3做优化器状态/参数分片做计算/通信重叠、算子融合、Flash Attention等优化V3 还在 MoE 上搞了DualPipe 等专用调度算法从功能定位上看HAI‑LLM 就是“DeepSeek 版的 Megatron DeepSpeed 混合体”只用在自家模型训练上目前没整体开源。2. 那适配华为昇腾是不是把 HAI‑LLM 整个搬过去了不是。2.1 昇腾那边已有的“类似框架”栈华为在昇腾上有一套比较完整的大模型训练/推理栈里面就包含类似 Megatron 的东西CANN类似 CUDA 的底层计算架构MindSpeed昇腾的大模型加速库并行优化、算子融合、通信优化等MindSpeed‑LLM基于 Megatron‑LM 核心架构 MindSpeed 适配层做 LLM 训练套件MindIE大模型推理引擎含 vLLM‑Ascend 等其中MindSpeed‑LLM的典型结构是上层Megatron‑LM 的 TP/PP/DP 训练逻辑中层MindSpeed 做“猴子补丁式”的昇腾适配和优化底层CANN torch_npu HCCL 通信也就是说昇腾已经有一套“Megatron‑LM MindSpeed” 的组合本质上就相当于“昇腾版 Megatron 框架”。2.2 DeepSeek 适配昇腾用的是哪套从华为官方和社区文档看DeepSeek 在昇腾上训练/推理走的就是 MindSpeed‑LLM Megatron‑LM 这条路华为 ModelArts 的预置镜像里专门有MindSpeed‑LLM 镜像说明里写明深度融合 MindSpeed 加速库与 Megatron‑LM 核心架构为合作伙伴提供端到端大模型训练方案。有文章直接给出在昇腾上用MindSpeed‑LLM Megatron‑LM 跑 DeepSeek‑V4‑Flash的完整步骤安装 CANN / torch_npu / MindSpeed克隆 Megatron‑LMcore_v0.12.1用 MindSpeed‑LLM 的脚本做 DeepSeek‑V4‑Flash 的权重转换、训练、推理昇腾社区还有专门的DeepSeek 模型专区把 DeepSeek‑V3/V4/R1 等模型做成 OM/MindIR 权重 MindIE/vLLM‑Ascend 推理方案。这些说明训练侧DeepSeek 在昇腾上用的是MindSpeed‑LLMMegatron‑LM 核心 HAI‑LLM 里积累的并行/通信策略而不是把 HAI‑LLM 整个框架替换掉推理侧用的是MindIE / vLLM‑Ascend也不是 HAI‑LLM 自己的推理引擎。3. 所以“适配昇腾”具体做了什么可以粗略分成三层底层算子/运行时迁移从 CUDA 迁移到 CANN重写了 200 核心算子用 torch_npu 把 PyTorch 接口桥接到昇腾 NPU。框架层把 HAI‑LLM 的“经验”搬到 MindSpeed‑LLM 上把 HAI‑LLM 里验证过的并行策略PP/EP/DP/ZeRO 等和通信/调度优化在 MindSpeed‑LLM Megatron‑LM 上重新实现和调优利用 MindSpeed 的图算融合、HCCL 通信优化、激活重计算等昇腾专属优化。模型/权重适配把 DeepSeek‑V3/V4 等模型权重转换为昇腾友好的格式BF16/FP8、OM/MindIR 等并配合 MindIE/vLLM‑Ascend 做推理优化。4. 一句话总结是DeepSeek 确实有自研的类似 Megatron/DeepSpeed 的训练框架 HAI‑LLM支撑自家大模型训练。但适配华为昇腾时并不是“把 HAI‑LLM 整个搬到昇腾”而是底层用 CANN / torch_npu 替换 CUDA框架层用昇腾已有的MindSpeed‑LLM Megatron‑LM组合把 HAI‑LLM 的并行/调度策略迁移过去推理层用 MindIE / vLLM‑Ascend而不是 HAI‑LLM 自带的推理引擎。所以更准确的说法是DeepSeek 适配昇腾是在昇腾已有的“MindSpeed‑LLM Megatron‑LM CANN”框架栈上把自家 HAI‑LLM 的经验和模型特性搬过去而不是从零另起一个类似框架。TileLang俗称铁狼国产GPU/NPU算子专用编程语言北大杨智团队研发DeepSeek-V3.2主力底层算子开发语言对标CUDA、替代Triton。一、基础信息研发方北京大学计算机杨智副教授团队TileAI社区2025年1月GitHub开源开源项目tile-ai/tilelang。定位AI高性能算子DSL领域专用语言专门写GPU/昇腾/寒武纪/AMD NPU底层内核GEMM、FlashAttention、量化算子等大模型核心算子。关键落地DeepSeek V3.2全链路改用TileLang编写算子替换OpenAI主导的Triton华为昇腾Day0首日原生适配、算能TPU、AMD全平台同步兼容。二、核心特点1. 语法类Python上手简单Python风格简洁语法不用手写CUDA繁杂线程、内存调度FlashAttention原生CUDA≈500行 → TileLang仅70~80行代码缩减80%。# 极简示例风格tilelang.jitdefgemm(A:T.Tensor,B:T.Tensor,C:T.Tensor):# Tile分块计算编译器自动调度硬件2. 跨芯片一次编写、多硬件编译一套代码可编译NVIDIA CUDAA100/H100华为昇腾AscendCAMD ROCm、寒武纪、壁仞国产NPU底层基于TVM编译器架构数据流与硬件调度解耦编译器自动做硬件优化。3. 性能对标CUDA优于TritonH100实测同等算子普遍优于Triton部分算子提速2~5倍性能持平原生CUDA手写自动Tile分块、软件流水线、内存排布优化兼顾开发效率与硬件极限性能。三、DeepSeek为什么选用TileLang降本提速自研算子开发周期大幅缩短大模型训练/推理延迟下降、API算力成本降低国产算力适配刚需DeepSeek落地国产昇腾等芯片TileLang统一屏蔽各硬件编程差异摆脱Triton生态依赖Triton绑定CUDA生态TileLang自主可控、全国产算力友好。四、安装与使用# pip安装pipinstalltilelang# PyTorch/Paddle生态均有适配包pipinstalltilelang-paddle接入PyTorch/Paddle即可自定义高性能算子无缝替换原生CUDA/Triton算子。五、对标三强对比语言开发主体生态跨硬件适用场景CUDA英伟达N卡独占差N卡极致性能、开发成本极高TritonOpenAI/NVIDIA优先N卡一般主流AI快速算子、国产芯片适配差TileLang北大TileAI全芯片兼容极强国产NN卡通用、大模型算子首选内容由ai生成