分册 9示例与问题排查【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills无主流程独立 §与 part-06-risk-rollback.md 配合失败路径。代码模式见 reference-code-patterns.md命令见 part-07-commands.md。场景 APyTorch 推理迁移端到端输入用户给出tools/infer.py、GPU 权重、固定样例图目标 910 FP16。步执行动作落盘1part-01 收集 IO shape、基线日志或 GPU 接口Compare§2.1、Mig_Readme§3.12part-02 判定链路torch_npu 无 CUDA 扩展Mig_report§2.23part-03 门禁npu-smi沙箱外复检environment.md4.0.3AUTO4part-04get_device()、.cuda()→.npu()、pin_memoryFalseMig_report§4§65smoke3 张图前向记录 shape/ max diff 量级§6 勾选推理 smoke6part-05NPU 延迟 Golden用户 GPU baselineCompare§3§47part-08 归档定稿Summary.md最终交付对话输出要点4.0.3 一行结论smoke 命令mig_docs/已更新文件列表。场景 BPyTorch 训练迁移含训练短测步要点4HCCL 多卡时改 backend见 reference §4、part-07 多卡模板5 smoke1 batch 反向loss 有限5 短测part-05 §8.1.1loss 相对起点降 30%50%即停勿重复短测失败loss 平盘且 500 step → part-05 §8.2写 §7查 label/head/AMP场景 C仅「检查 NPU 适配」入口part-03 §4.0.0产出environment.md AUTO/MANUAL_STOP/UNKNOWN不填Compare全量、不跑 part-04 smoke回复须声明「本次为适配检查路径未执行完整迁移链路」症状 → 原因 → 动作速查表症状常见原因优先动作落盘RuntimeError: NPU error/ ACLCANN/驱动未加载、版本不匹配检查 set_env、npu-smi回流 part-03§7、environment.mdImportError: torch_npu插件未装或 Python 环境错误venv 对齐 README 版本§7、§3.cuda()/invalid deviceCUDA 残留reference §2 扫描替换§5.1Unsupported op/ 自定义算子CUDA 扩展CPU 回退或算子替换§5.4、§7HCCL init failedbackend/可见设备/RANK 错误核对ASCEND_RT_VISIBLE_DEVICES、torchrun§7、part-07精度大幅下降预处理/layout/head 接错Golden 对齐 mean/std/NCHWCompare §3.1、Mig_report§7loss NaNAMP scale/dtype/学习率关 AMP 试 FP32 smoke查 loss 实现§7延迟劣于预期IO/前后处理/ batch 过小bench 拆分阶段Compare §4.1Compare §5沙箱内 npu-smi 空受限会话/沙箱无设备可见性沙箱外复检采信宿主机environment.md常见问题排查顺序详运行失败device 与torch_npu导入 → CUDA 残留 → dtype/AMP/数据管线 → §7加载失败CANN/驱动/插件版本 → 环境变量 → §8 日志路径精度问题预处理 → layout/head → 算子/CPU 回退 → Golden 数值性能问题统一 warmup/口径 → IO → 批大小/并发 → Compare §4§5、Mig_report§7§7 条目示例精简### 问题infer smoke 报 Unsupported operator aten::xxx2026-06-18 - **触发命令**python tools/infer.py --device npu:0 ... - **现象**ACL 000xxx算子 xxx 不支持 - **已尝试**|1| 换 CPU 后处理|成功 smoke| - **根因**后处理依赖 CUDA 专用 op - **修复**postprocess 改 CPU 路径再 to(npu) - **验证**3 样例前向通过无 NaN输出末尾建议附带Mig_report§7若失败/回滚见 part-06 §9.4 模板Compare.md精度/性能结论一行摘要日志路径§8关联索引回滚part-06-risk-rollback.md代码模式reference-code-patterns.md流程总览workflow.md 回流 part-03 / 04 / 05【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考