（论文速读）利用内在自信奖励改进文本到图像的生成

张

张建站

2026/6/30 7:19:44

10分钟阅读

论文题目Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards会议CVPR 2026摘要文本到图像的生成支持跨设计、媒体和数据增强的内容创建。文本到图像生成模型的后期训练是一条很有希望的途径可以更好地匹配人类的偏好、真实性和改进的美学。我们引入了SOLACE(自起源潜在置信度估计)这是一个训练后框架它用内部自信信号取代外部奖励监督通过评估模型在自去噪探测下恢复注入噪声的精度来获得。Solace将这一内在信号转换为标量奖励无需额外的数据集、注释器或奖励模型即可实现完全无监督的优化。从经验上看通过加强高信心生成Solace在构图生成、文本呈现和文本图像对齐方面提供了超过基准的一致收益。我们还发现将安慰与外部奖励相结合会带来相辅相成的改善并缓解奖励黑客行为。让模型审视自己——SOLACE用内在自信度奖励提升文生图生成质量项目主页https://wookiekim.github.io/SOLACE/一、背景文生图后训练为什么这么难文本生成图像Text-to-Image, T2I技术已经渗透到设计、媒体和数据增强等诸多领域。以SD3.5、FLUX等为代表的扩散/流匹配模型能够从自然语言提示词生成高质量、多样化的图像。然而预训练之后如何进一步对齐人类需求成为当前研究的核心议题。近年来通过强化学习RL对文生图模型进行后训练成为提升视觉吸引力和美学质量的有效手段。这类方法通常依靠外部奖励——来自人类偏好模型如PickScore、HPSv2、ImageReward或任务特定验证器如OCR、对象检测的评分信号——来指导模型优化方向。但这条路并不平坦存在三个根本性痛点痛点1定义好图像本身就是难题一张好图像需要同时满足构图合理性、文字渲染准确性、视觉美学和文图对齐等多个弱对齐标准而这些标准的相对重要性因领域和提示词而异。没有任何一个外部奖励模型能够面面俱到。痛点2奖励欺骗Reward Hacking挥之不去优化单一外部奖励往往导致模型钻空子在目标指标上分数飙升但在非目标能力如构图完整性、文字渲染上出现明显退化。这种现象在文献中被称为奖励欺骗reward hacking是目前外部奖励后训练的顽疾。痛点3外部奖励模型带来额外开销与依赖人类偏好奖励模型需要大规模标注数据才能训练而在实际训练时还需在生成器旁并行运行额外的评估器大幅增加了训练管线的复杂度和计算开销。面对这三大痛点本文提出了一个根本性的问题文生图模型自身能否提供有意义的内在反馈信号用于后训练二、核心思想让模型自我检验受Score Distillation SamplingSDS的启发——SDS将预训练的文生图模型作为评判者来指导文本到3D的生成——本文将这一思路反过来用于文生图模型自身让文生图模型去评判自己生成的图像。具体而言这一内在信号来自模型的自信度给定生成的潜变量对其重新加噪然后让模型预测所注入的噪声。如果模型能准确地预测回来说明它对这张图很有把握预测误差越大说明这张图越不像模型内心认可的样子。这个直觉背后有坚实的假设基础大规模预训练赋予了扩散/流模型关于真实图像分布和文图对齐的隐式先验因此模型的自信度应当与生成质量密切相关。作者通过实验附录图6验证了这一假设对同一模型在三种推理强度下10步无CFG → 10步有CFG → 20步有CFG计算自信度分布结果显示自信度分布单调右移与视觉质量提升的顺序完全一致——说明能更好地自我去噪确实等价于生成了更好的图像。【图6附录——三种推理设置下自信度分布对比以及对应的生成图像质量变化】三、SOLACE方法详解本文提出的方法全称为SOLACESelf-OriginatingLAtentConfidenceEstimation自源潜空间置信度估计是一个完全无监督的后训练框架无需额外数据集、标注员或奖励模型。【图2——SOLACE整体流程图文本提示→生成G个潜变量→K个噪声探针重噪→模型预测噪声→计算内在奖励→GRPO后训练】3.1 内在自信度奖励的计算整个奖励计算分为四步第一步采样一组图像给定文本提示 c从流匹配策略中独立采样 G 条反向轨迹得到 G 个终止潜变量及对应的完整轨迹。G个不同初始噪声的样本为GRPO的组相对优势归一化提供了所需的组。第二步采样噪声探针进行重噪在潜空间中采样 K 个共享噪声探针所有候选图像共用同一组探针。为保证探针集均值精确为零采用对偶配对令。对Rectified Flow重噪公式为线性前向核第三步计算自信度对每个重噪后的潜变量查询流匹配模型的速度场在Rectified Flow参数化下恢复噪声估计然后计算预测噪声与真实注入噪声之间的均方误差第四步转换为标量奖励对MSE取负对数变换小误差→大奖励同时稳定动态范围其中防止。该变换同时近似了i.i.d.噪声模型下的高斯对数似然并对离群值有压缩作用。最终对多个重噪时间步加权平均得到标量内在奖励实践中取均匀权重 w(t)1。值得注意的是SOLACE奖励直接在潜空间中计算无需解码到像素空间与外部奖励通常在像素空间操作形成对比。3.2 稳定化与效率技术直接用上述奖励训练会导致严重问题作者引入了四项关键设计① 减少去噪步数推理时SD3.5使用40步训练时仅用10步去噪。实验表明这不影响测试时的图像质量但可大幅加快训练速度。② 时间步选择防崩溃核心实验发现若对所有训练时间步都施加GRPO损失模型会迅速产生崩溃生成无纹理、空白图像——这是一种奖励欺骗模型将潜变量引导到使注入噪声极易预测的退化区域。解决方案是只对去噪轨迹的后缀部分训练步数的后60%即计算GRPO损失。在这段区域去噪任务依然有信息量但不易被过度利用。【图7附录——训练崩溃可视化全时间步 vs 选择性时间步以及无CFG采样 vs 有CFG采样下的自信度曲线与对应生成图像】③ 自信度计算不使用CFGG个图像用CFG采样但计算自信度时禁用CFG仅使用条件分支。原因是CFG形成的混合速度场会计算出基于guided proxy的自信度而非真实条件模型的自信度可能诱导通过增大引导强度来欺骗奖励。④ 在线Online计算自信度用正在训练的模型而非固定的参考模型实时计算自信度奖励。随着模型通过SOLACE持续改进其自信度信号的稳定性和可靠性也随之提升形成正向循环。四、实验设置4.1 实现细节配置项设置基础模型SD3.5-M2.5B参数组大小 G16噪声探针数 K8对偶配对后缀比例 ρ0.6LoRA rank / α32 / 64优化器AdamW学习率 3e-4恒定KL正则化权重 β0.04训练/测试分辨率512×512推理CFG guidance7.0训练去噪步数 / 推理步数10 / 40GPU8× NVIDIA RTX PRO 6000 Blackwell训练迭代次数2000次约30小时训练提示词来源Flow-GRPO的视觉文字渲染OCR任务训练集值得注意的是SOLACE训练时不需要外部奖励模型仅需文本提示词即可生成训练样本。4.2 评估设置论文从四个维度进行评估(1) 组合性生成GenEval基准包括位置关系、对象计数、属性绑定、颜色、双对象、单对象共六个子任务以规则化方式计算奖励如计数奖励。(2) 视觉文字渲染使用来自Flow-GRPO的1000条GPT-4o生成测试提示词以最小编辑距离衡量生成文字与目标文字的差距。(3) 人类偏好对齐在DrawBench提示词上分别用PickScore、HPSv2.1、ImageReward、UnifiedReward四个模型打分。(4) 图像质量在DrawBench上报告CLIPScore文图对齐和Aesthetic Score美学。五、实验结果5.1 主要量化结果【表1——SOLACE在SD3.5系列上的完整定量结果任务特定、图像质量、人类偏好三大类指标含基线、SOLACE、FlowGRPO、FlowGRPOSOLACE各行】主要结论如下SOLACE独立使用SD3.5-M → SD3.5-M SOLACE指标类别指标基线SOLACE变化任务特定GenEval0.650.710.06 ↑任务特定OCR0.610.670.06 ↑图像质量CLIPScore0.2820.2880.006 ↑图像质量Aesthetic5.365.390.03 ↑人类偏好PickScore22.3422.410.07 ↑人类偏好ImageReward0.840.870.03 ↑人类偏好UnifiedReward3.083.110.03 ↑值得关注的是SD3.5-M加上SOLACE后GenEval0.71、OCR0.67、CLIPScore0.288三项指标几乎与参数量是其3倍7.1B的SD3.5-L持平分别为0.71/0.68/0.289。这强有力地说明内在自信度信号与组合性生成、文字渲染和文图对齐这些更客观的指标高度相关。SOLACE与外部奖励结合FlowGRPOSOLACE在已用PickScore外部奖励通过FlowGRPO后训练的模型上继续叠加SOLACE可在不显著损失PickScore的前提下恢复并提升GenEval、OCR、CLIPScore等非目标能力有效缓解了外部奖励导致的奖励欺骗现象。【图4——外部奖励FlowGRPOPickScore与SOLACE结合效果的定性对比含黄色自行车和红色摩托车等组合性反例】5.2 用户研究结果本文对PartiPrompts和HPSv2两套提示词集合进行了用户研究共收集约1800份来自20位参与者的反馈分别就视觉真实感/吸引力和文图对齐两个维度评选。【图3——用户研究结果SD3.5SOLACE vs 基线SD3.5-M在PartiPrompts和HPSv2上的胜率对比条形图】结果显示SD3.5SOLACE在视觉真实感/吸引力上以59.0%PartiPrompts和50.6%HPSv2的胜率领先在文图对齐上以57.3%PartiPrompts和40.6%HPSv2的胜率领先。这与定量指标趋势吻合。5.3 定性结果【图1——SOLACE与基线SD3.5在Pick-a-Pic数据集上的定性对比彩虹玫瑰蓝树/星河魔法药瓶/戴眼镜外星女性/魔法光芒幼苗】【图5——SOLACE在DrawBench、GenEval和OCR三类任务上的定性对比结果含键盘、路标、海报等场景】从定性结果可以直观看到在组合关系如物体计数、空间位置、图像内文字渲染如标牌、环形刻字等方面SOLACE后训练的模型相比基线有明显改善。六、消融实验分析【此处配表表2——消融实验结果噪声探针数K / CFG用于自信度计算 / 在线vs离线自信度三项对比】① 噪声探针数K的影响对比K4、8、16三个设置K8综合表现最优。K16虽在Aesthetic Score上略高但额外计算开销不值得因此选择K8。② CFG对自信度计算的影响使用CFG计算自信度vs. 不使用CFG的结果表明引入CFG反而导致性能略微下降GenEval: 0.68 vs 0.71。推测原因是CFG是推理时技术在奖励内使用CFG会优化guided proxy而非真实条件策略并可能诱导通过放大引导强度guidance scale 1.0来欺骗奖励。③ 在线vs离线自信度在线计算使用当前训练模型明显优于离线计算使用固定参考模型GenEval 0.71 vs 0.69OCR 0.67 vs 0.61。这印证了模型越好、其自信度信号越可靠的假设。【表5附录——额外消融结果提示词来源 / 组大小G / 逐步奖励vs聚合奖励三项对比】④ 提示词来源的影响对比三类提示词OCR高密度描述性提示词 / PickScore开放式提示词 / GenEval简单组合性提示词OCR提示词效果最佳GenEval: 0.71OCR: 0.67印证了文本条件越明确、自信度信号越可靠的结论。⑤ 组大小G的影响G8组内多样性不足 G16最优 G32训练不稳定GenEval降至0.61。G32时每批不同提示词数量减少组内多样性下降过优化风险增加。⑥ 逐步奖励vs聚合奖励聚合奖励对所有时间步平均优于逐步奖励对每个时间步独立优化GenEval 0.71 vs 0.67。单步去噪的改进不一定转化为最终样本质量提升且逐步方式方差更大、对求解器更敏感。七、跨模型泛化验证【表3附录——SOLACE在SD3.5-M / SD3.5-L / FLUX.1-Dev三个模型上的完整指标对比】为验证方法的普适性论文还将SOLACE应用于更大的SD3.5-L8.1B和不同架构的FLUX.1-Dev12B。结果显示在两个模型上SOLACE均带来组合性、文字渲染和文图对齐的一致提升证明该方法可跨模型规模和架构迁移不局限于SD3.5-M。对于FLUX.1-Dev唯一的调整是将后缀比例从ρ0.6调整为ρ0.5以提升训练稳定性其余超参数保持不变。八、局限性与未来展望作者坦诚指出了SOLACE的两点主要局限与人类偏好对齐有限内在自信度与人类偏好的相关性较弱在PickScore等指标上的提升幅度较小0.07。SOLACE更擅长提升可客观衡量的指标组合性、文字渲染、文图对齐对主观审美的影响有限。无法针对特定对齐目标优化SOLACE无法像外部奖励那样精确控制优化方向。不过论文已经表明与外部奖励结合使用是解决这一问题的有效途径。论文提出的未来方向包括一致性感知扩展将SOLACE应用于视频/3D生成中的时序/多视角一致性自信度评估。内在信号的解耦与校准使内在奖励能够更精细地针对特定任务进行塑造。九、总结SOLACE提出了一个优雅而实用的问题既然大规模预训练已经赋予了文生图模型关于好图像的隐式知识为什么不直接利用这些知识来后训练模型自身通过将模型能多好地恢复注入噪声量化为自信度奖励SOLACE实现了一套完全无监督的后训练框架无需外部标注或奖励模型。实验表明这一内在信号与构图生成、文字渲染和文图对齐高度相关可带来一致且稳定的性能提升同时有效缓解了外部奖励常见的奖励欺骗问题。从更宏观的视角看SOLACE在文生图领域验证了模型自我改进这一范式的可行性为后续工作开辟了一条低成本、高可扩展性的研究路径。