CANN/HCCL推荐业务配置
推荐业务配置【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl本节分别针对Atlas A3 训练系列产品/Atlas A3 推理系列产品、Atlas A2 训练系列产品/Atlas A2 推理系列产品的常见业务场景提供推荐的业务配置。[!NOTE]说明 本节仅给出了推荐配置环境变量的功能说明和配置示例详细使用说明可参见环境变量参考。Atlas A3 训练系列产品/Atlas A3 推理系列产品训练场景环境变量配置说明HCCL_CONNECT_TIMEOUT配置socket建链超时等待时间默认值为120单位s。该场景下建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT1200HCCL_OP_EXPANSION_MODE配置通信算子的展开模式。该场景下建议保持默认值“AI_CPU”代表通信算子在AI CPU展开。export HCCL_OP_EXPANSION_MODEAI_CPU推理场景Prefill-Decode混合部署环境变量配置说明HCCL_OP_EXPANSION_MODE配置通信算子的展开模式。该场景下建议配置为“AIV”代表通信算子在Vector Core展开。export HCCL_OP_EXPANSION_MODEAIVHCCL_DETERMINISTIC是否开启确定性计算用户可以根据使用场景选择开启或关闭默认值为false代表关闭确定性计算。export HCCL_DETERMINISTICfalsePrefill-Decode分离部署环境变量配置说明HCCL_INTRA_ROCE_ENABLE仅使用LLM-DataDist作为集群管理组件的场景下建议通过此环境变量配置超节点内使用RoCE链路进行通信非LLM-DataDist场景无需配置。export HCCL_INTRA_ROCE_ENABLE1HCCL_OP_EXPANSION_MODE配置通信算子的展开模式。该场景下建议配置为“AIV”代表通信算子在Vector Core展开。export HCCL_OP_EXPANSION_MODEAIVHCCL_DETERMINISTIC是否开启确定性计算用户可以根据使用场景选择开启或关闭默认值为false代表关闭确定性计算。export HCCL_DETERMINISTICfalse强化学习训推一体环境变量配置说明HCCL_CONNECT_TIMEOUT配置socket建链超时等待时间默认值为120单位s。该场景下建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT1200HCCL_OP_EXPANSION_MODE配置通信算子的展开模式。该场景下建议保持默认值“AI_CPU”代表通信算子在AI CPU展开。export HCCL_OP_EXPANSION_MODEAI_CPU需要注意针对推理通信域需要通过通信域级别的配置参数将推理通信域的算子展开位置设置为“Vector Core”针对PyTorch框架网络可通过“hccl_op_expansion_mode”参数配置配置方法如下options torch_npu._C._distributed_c10d.ProcessGroupHCCL.Options()options.hccl_config {hccl_op_expansion_mode:3}torch.distributed.init_process_group(backendhccl, pg_optionsoptions)PyTorch框架参数的详细介绍可在《Ascend Extension for PyTorch 产品文档》中搜索“通过pg_options配置HCCL通信域参数”查看。HCCL_DETERMINISTIC是否开启确定性计算用户可以根据使用场景选择开启或关闭默认值为false代表关闭确定性计算。export HCCL_DETERMINISTICfalseAtlas A2 训练系列产品/Atlas A2 推理系列产品训练场景环境变量配置说明HCCL_CONNECT_TIMEOUT配置socket建链超时等待时间默认值为120单位s。该场景下建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT1200HCCL_OP_EXPANSION_MODE配置通信算子的展开模式 。该场景下建议保持默认值“HOST”代表通信算子在Host侧CPU展开。export HCCL_OP_EXPANSION_MODEHOSTHCCL_DETERMINISTIC是否开启确定性计算用户可以根据使用场景选择开启或关闭默认值为false代表关闭确定性计算。export HCCL_DETERMINISTICfalse推理场景环境变量配置说明HCCL_OP_EXPANSION_MODE配置通信算子的展开模式。该场景下建议保持默认值“HOST”代表通信算子在Host侧CPU展开。export HCCL_OP_EXPANSION_MODEHOSTHCCL_DETERMINISTIC是否开启确定性计算用户可以根据使用场景选择开启或关闭默认值为false代表关闭确定性计算。export HCCL_DETERMINISTICfalse强化学习训推一体环境变量配置说明HCCL_CONNECT_TIMEOUT配置socket建链超时等待时间默认值为120单位s。该场景下建议根据网络规模大小适当调整建链超时等待时间。export HCCL_CONNECT_TIMEOUT1200HCCL_OP_EXPANSION_MODE配置通信算子的展开模式。该场景下建议保持默认值“HOST”代表通信算子在Host侧CPU展开。export HCCL_OP_EXPANSION_MODEHOSTHCCL_DETERMINISTIC是否开启确定性计算用户可以根据使用场景选择开启或关闭默认值为false代表关闭确定性计算。export HCCL_DETERMINISTICfalse【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考