大模型---温度与其他采样方法

张

张建站

2026/4/28 7:30:32

10分钟阅读

目录1.温度的定义2.温度和top-k、top-p的关系参考论文：1904.097511.温度的定义温度是模型解码阶段的一个采样参数：模型先为下一个 token 计算一组logits（大小为词表大小，logit表示词表中每个token的分数），再用温度把这组 logits 重新缩放，最后通过 softmax 得到新的采样分布。下面公式：也就是说，模型本来先算出一组logits，温度不是改模型参数，而是改这组 logits 再进 softmax 的方式。当t=1，分布不变，就是普通softmax。当t1，比如t=0.5，相当于把所有logit放大一倍。这样大的logit会变得更大，小的logit会变得更小，softmax后分布会更尖锐，头部token更占优势。当t1，比如t=2，相当于把所有logit缩小。这样各token之间差距会被压平，分布更平坦，低概率token更容易被采样到。语言模型每一步都在“从一个分布里选下一个 token”。如果降低温度，低温会进一步偏向这些高概率token，所以生成结果通常更流畅、更少离谱错误，但也更容易模板化、保守甚至重复；如果升高温度，允许次优 token 有更大机会被采样，模型就更可能出现不同措辞、不同句法、不同展开路径。所以可以这样总结，高温更有创

DiffSeg30k：局部AIGC检测与扩散模型编辑基准解析

1. 项目概述：DiffSeg30k基准的定位与价值DiffSeg30k是一个专注于局部AIGC（AI生成内容）检测的多轮扩散编辑基准数据集。与传统的全局图像编辑检测不同，该数据集针对扩散模型在局部区域（如物体替换、风格迁移等&#xff…...

2026/4/28 7:28:31 阅读更多 →

算法训练营第十五天|344. 反转字符串

今日练习的题目和链接建议： 本题是字符串基础题目，就是考察 reverse 函数的实现，同时也明确一下平时刷题什么时候用库函数，什么时候不用库函数题目链接：https://leetcode.cn/problems/reverse-string/ …...

2026/4/28 7:28:31 阅读更多 →

mysql 慢查询如何快速定位

面试标准满分回答（简洁、条理清晰、面试官最爱） 面试官您好，MySQL 慢查询我一般按实时排查日志溯源 SQL分析三步快速定位：实时抓现场SQL 先执行 show full processlist;，查看当前正在执行的SQL，通过执行…...

2026/4/28 7:27:50 阅读更多 →

AI智能体工作流编排：从单体架构到流水线协作的工程实践

1. 项目概述：当AI智能体学会“流水线”协作最近在探索AI智能体（Agent）的落地应用时，我遇到了一个非常有意思的项目：coleam00/ottomator-agents。这个名字本身就充满了想象力——“Ottomator”，听起来像是“…...

2026/4/26 0:13:33 阅读更多 →

ChatGPT翻译能力解析与实战技巧

1. ChatGPT翻译能力深度解析作为一名长期从事语言技术研究的从业者，我最近系统测试了ChatGPT在多语言翻译场景下的实际表现。与传统的机器翻译工具相比，ChatGPT展现出几个独特优势：首先，它的上下文理解能力远超传统翻译引擎。当处…...

2026/4/26 0:13:35 阅读更多 →

2026届毕业生推荐的十大降AI率助手实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在内容生产这个过程当中，要降低AIGC也就是人工智能生成内容所占的比例&#xff…...

2026/4/26 0:15:22 阅读更多 →