目录1.温度的定义2.温度和top-k、top-p的关系参考论文:1904.097511.温度的定义温度是模型解码阶段的一个采样参数:模型先为下一个 token 计算一组logits(大小为词表大小,logit表示词表中每个token的分数),再用温度把这组 logits 重新缩放,最后通过 softmax 得到新的采样分布。下面公式:也就是说,模型本来先算出一组logits,温度不是改模型参数,而是改这组 logits 再进 softmax 的方式。当t=1,分布不变,就是普通softmax。当t1,比如t=0.5,相当于把所有logit放大一倍。这样大的logit会变得更大,小的logit会变得更小,softmax后分布会更尖锐,头部token更占优势。当t1,比如t=2,相当于把所有logit缩小。这样各token之间差距会被压平,分布更平坦,低概率token更容易被采样到。语言模型每一步都在“从一个分布里选下一个 token”。如果降低温度,低温会进一步偏向这些高概率token,所以生成结果通常更流畅、更少离谱错误,但也更容易模板化、保守甚至重复;如果升高温度,允许次优 token 有更大机会被采样,模型就更可能出现不同措辞、不同句法、不同展开路径。所以可以这样总结,高温更有创