AAAI大会：HiFloat8高效训推技术报告——HiFloat8：一种用于高效训练和推理的新型 8 位浮点数据格式

张

张建站

2026/4/7 20:18:43

10分钟阅读

AAAI大会：HiFloat8高效训推技术报告——HiFloat8：一种用于高效训练和推理的新型 8 位浮点数据格式

[新加坡新加坡市2026年1月22日] AAAIAAAI Conference on Artificial Intelligence人工智能促进协会人工智能会议是人工智能领域历史最悠久最具学术影响力的国际学术会议之一。2026年来自中国的投稿数量提升至两万篇左右占比2/3以上表明AAAI已成为中国AI研究者的重要学术交流平台。AAAI2026于1月20日至27日在新加坡博览中心举行。HiFloat8HiF8数据格式支持模型低比特高效训推是华为下一代昇腾CANN支持的重要特性也在本次会上展出。华为AI处理器算法领域王鑫博士发表HiF8高效训推技术报告介绍在模型训练和推理上进行HiF8量化的实践。以下是报告精华内容AI模型算法专家作HiFloat8高效训推技术报告一、HiF8数据格式特点及优势随着深度学习模型规模的不断增大模型的训练和推理对计算效率、显存占用和能耗的要求也越来越高。低比特8bit整型/8bit浮点数据格式应运而生。其核心思想是使用更少的比特位来表示计算密集且对精度敏感度较低的模块如模型参数权重和中间计算结果激活值等。HiF8 是一种新型的 8 位浮点格式。它创新地提出点位域Dot设计实现即时可译变长前缀码编码。这样的设计使得格式本身实现动态范围和精度平衡摆脱了传统低比特数据格式对复杂细粒度缩放的依赖实现更高效的模型训练和推理。下图展示了HiF8的数据格式及数值分布。二、HiF8数据格式在模型训练中的优势8比特浮点数 (Float8) 在训练中常难以直接覆盖张量的动态范围需要通过缩放 (scaling) 算法把数值映射到Float8数据格式的可表示范围内。当前主流Float8训练方案常涉及两种缩放策略current (in-time) scaling 和delayed scaling [1]。计算缩放系数 (scaling factor) 构成低比特训练的一项额外开销计算系数的粒度越粗、频率越低、与其它运算的耦合性越弱Float8训练的性能优势越显著。HiFloat8 (HiF8) 在保障数值主要分布高概率密度区域精度的前提下有优越的动态范围支持粗粒度缩放与基于delayed scaling的训练使计算缩放系数与后续运算解耦充分释放Float8训练的性能潜力。在Current Scaling策略下HiF8在粗粒度下Per-tensor可实现稳定且等效的训练性能。在Delayed Scaling策略下实验结果表明HiF8在大规模模型预训练中能够保持与高精度 BF16相当的收敛性能并在多项下游评测任务中实现无损或近乎无损的精度表现。在维持与BF16持平的训练质量的同时HiF8显著提可提升端到端训练效率展现出了作为下一代大模型训练核心技术路径的潜在价值。三、HiF8数据格式在模型推理中的优势受益于 HiF8 格式自身提供了足够的动态范围和平衡的精度大多数推理任务可以直接采用粗粒度的量化策略对整个张量Per-Tensor进行缩放或者甚至进行无缩放Scale-Free转换。这相对需要进行复杂的转换如Per-Token/Per-Channel需在张量子维度维护和索引缩放因子或 Per-Block(进一步地在算子层面影响Matmul规约连续性显著降低数据复用与计算吞吐)缩放可以消除大量缩放因子的管理和应用大幅简化了推理框架和硬件加速器的设计。无需执行频繁的缩放因子查找和乘法操作也降低了内存带宽和计算开销从而充分地发挥 8 位计算的加速潜力。四、总结总之HiF8利用匹配数据分布的锥形精度特征成功在8-bit限制下在保证神经网络需求精度的前提下显著扩大了格式的动态范围。进而为神经网络训练和推理提供了能力更全面的8-bit单数据格式表达。我们相信这种优势最终会转换到神经网络E2E性能或者精度上。华为下一代昇腾处理器将原生支持HiF8数据格式并将在CANN社区开源HiF8转换算子及训推recipe。欢迎学术界与产业界共同探索HiF8数据格式的优势场景共同打造技术与模型生态。

步进电机丢步的五大关键因素与优化策略

1. 步进电机丢步现象解析刚接触步进电机的朋友可能会遇到这样的情况：明明给电机发送了100个脉冲信号，但实际只转了95步。这种"偷工减料"的现象就是典型的丢步问题。我在调试3D打印机时第一次遇到这个问题，打印出来的模型总是比设计…...

2026/4/7 20:14:17 阅读更多 →

快速构建chatgpt聊天机器人：使用快马平台十分钟搭建可交互原型

最近在尝试用ChatGPT API开发一个简单的网页聊天机器人，发现用InsCode(快马)平台可以快速实现原型搭建。整个过程比想象中简单很多，十分钟就能做出可交互的demo，特别适合快速验证想法。这里记录下具体实现思路和关键步骤： 界面设计…...

2026/4/7 19:55:04 阅读更多 →

I2C通信老失败？可能是SCL占空比的锅！一个案例讲清调整逻辑与常见误区

I2C通信老失败？可能是SCL占空比的锅！一个案例讲清调整逻辑与常见误区调试I2C总线就像在跟一个固执的同事沟通——明明按照标准流程操作，对方却总是不按常理出牌。最近在调试BMP280气压传感器时，我的I2C通信时不时出现ACK丢失或数…...

2026/4/7 19:53:08 阅读更多 →

ESP32硬件PWM控制库PWMOutESP32实战指南

1. PWMOutESP32 库深度解析：面向嵌入式工程师的 ESP32 PWM 控制实践指南 1.1 库定位与工程价值 PWMOutESP32 是一个专为 ESP32 系列微控制器设计的轻量级 PWM 输出控制库，其核心目标是提供 Arduino 风格的 pwm.analogWrite(pin, value) 接口&#xff…...

2026/4/5 0:05:17 阅读更多 →

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

1. LongerWatchDog 库概述：突破AVR看门狗定时器的固有约束在嵌入式系统开发中，看门狗定时器（Watchdog Timer, WDT）是保障系统可靠性的关键机制。传统Arduino平台（尤其是基于ATmega328P、ATmega2560等AVR架构的板卡&…...

2026/4/5 0:08:58 阅读更多 →

LeetCode 92. Reverse Linked List II 题解

LeetCode 92. Reverse Linked List II 题解题目描述给你单链表的头指针 head 和两个整数 left 和 right ，其中 left < right 。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。示例 1： 输入：head [1,2,…...

2026/4/8 7:20:54 阅读更多 →