[新加坡新加坡市2026年1月22日] AAAIAAAI Conference on Artificial Intelligence人工智能促进协会人工智能会议是人工智能领域历史最悠久最具学术影响力的国际学术会议之一。2026年来自中国的投稿数量提升至两万篇左右占比2/3以上表明AAAI已成为中国AI研究者的重要学术交流平台。AAAI2026于1月20日至27日在新加坡博览中心举行。HiFloat8HiF8数据格式支持模型低比特高效训推是华为下一代昇腾CANN支持的重要特性也在本次会上展出。华为AI处理器算法领域王鑫博士发表HiF8高效训推技术报告介绍在模型训练和推理上进行HiF8量化的实践。以下是报告精华内容AI模型算法专家作HiFloat8高效训推技术报告一、HiF8数据格式特点及优势随着深度学习模型规模的不断增大模型的训练和推理对计算效率、显存占用和能耗的要求也越来越高。低比特8bit整型/8bit浮点数据格式应运而生。其核心思想是使用更少的比特位来表示计算密集且对精度敏感度较低的模块如模型参数权重和中间计算结果激活值等。HiF8 是一种新型的 8 位浮点格式。它创新地提出点位域Dot设计实现即时可译变长前缀码编码。这样的设计使得格式本身实现动态范围和精度平衡摆脱了传统低比特数据格式对复杂细粒度缩放的依赖实现更高效的模型训练和推理。下图展示了HiF8的数据格式及数值分布。二、HiF8数据格式在模型训练中的优势8比特浮点数 (Float8) 在训练中常难以直接覆盖张量的动态范围需要通过缩放 (scaling) 算法把数值映射到Float8数据格式的可表示范围内。当前主流Float8训练方案常涉及两种缩放策略current (in-time) scaling 和delayed scaling [1]。计算缩放系数 (scaling factor) 构成低比特训练的一项额外开销计算系数的粒度越粗、频率越低、与其它运算的耦合性越弱Float8训练的性能优势越显著。HiFloat8 (HiF8) 在保障数值主要分布高概率密度区域精度的前提下有优越的动态范围支持粗粒度缩放与基于delayed scaling的训练使计算缩放系数与后续运算解耦充分释放Float8训练的性能潜力。在Current Scaling策略下HiF8在粗粒度下Per-tensor可实现稳定且等效的训练性能。在Delayed Scaling策略下实验结果表明HiF8在大规模模型预训练中能够保持与高精度 BF16相当的收敛性能并在多项下游评测任务中实现无损或近乎无损的精度表现。在维持与BF16持平的训练质量的同时HiF8显著提可提升端到端训练效率展现出了作为下一代大模型训练核心技术路径的潜在价值。三、HiF8数据格式在模型推理中的优势受益于 HiF8 格式自身提供了足够的动态范围和平衡的精度大多数推理任务可以直接采用粗粒度的量化策略对整个张量Per-Tensor进行缩放或者甚至进行无缩放Scale-Free转换。这相对需要进行复杂的转换如Per-Token/Per-Channel需在张量子维度维护和索引缩放因子或 Per-Block(进一步地在算子层面影响Matmul规约连续性显著降低数据复用与计算吞吐)缩放可以消除大量缩放因子的管理和应用大幅简化了推理框架和硬件加速器的设计。无需执行频繁的缩放因子查找和乘法操作也降低了内存带宽和计算开销从而充分地发挥 8 位计算的加速潜力。四、总结总之HiF8利用匹配数据分布的锥形精度特征成功在8-bit限制下在保证神经网络需求精度的前提下显著扩大了格式的动态范围。进而为神经网络训练和推理提供了能力更全面的8-bit单数据格式表达。我们相信这种优势最终会转换到神经网络E2E性能或者精度上。华为下一代昇腾处理器将原生支持HiF8数据格式并将在CANN社区开源HiF8转换算子及训推recipe。欢迎学术界与产业界共同探索HiF8数据格式的优势场景共同打造技术与模型生态。