BWLA:当你把LLM的权重“拧“成双峰分布——一场关于信息几何的后训练量化革命
一、从一个具体的、看似荒谬的问题开始好,让我先问你一个问题。假设你有一堆数字,它们的分布看起来像一个钟形曲线——中间高,两边低,大部分人扎堆在平均值附近。现在我要你把每个数字映射到两个值之一:-1 或 +1。你怎么做?最自然的做法:大于0的映射到+1,小于0的映射到-1。听起来合理对吧?但问题在于,如果你的钟形曲线中心在0附近,那大部分数字都挤在0附近。+0.1变成+1,-0.1变成-1。误差是0.9。你损失了大量的信息。这就是今天LLM二值化量化的核心困境。LLM的权重——那些决定模型行为的数以千亿计的参数——它们的分布恰好就是单峰的准高斯分布。直接二值化?灾难。但等等。如果我能让这些数字的分布变成双峰的呢?两个尖峰,一个在-1附近,一个在+1附近。那样映射到{-1, +1}就几乎是完美的。误差趋近于零。问题是:怎么把单峰"拧"成双峰?而且是在不重新训练模型的前提下?这就是BWLA(Binarized Weights and Low-bit Activations)回答的问题。作者Zhixiong Zhao、Zukang Xu、Dawei Yang的工作,在我看来是一场关于信息几何的小型革命。二、问题的本质:不是比特数,是分布形状让我把核心洞察讲清楚,不用任何术语。量化不是一个"压缩"问题。压缩是你有100MB的文件,想把它变成10MB。量化是你有一