AI生成图像的速度和质量又有新突破。香港科技大学、香港中文大学以及小红书的研究人员共同推出了一项名为TDM-R1的新技术。仅仅通过4步计算就能让生图模型在复杂指令跟随上击败超越了GPT-4o。这项技术成功打破了传统训练的限制把现实世界里无法直接用公式计算的反馈信号巧妙地喂给了高速运转的AI生成器实现了速度与质量的兼得。现实反馈的隐形门槛生成高质量的图片和视频一直是AI领域的核心目标。最近一段时间少步数生成模型如扩散蒸馏技术大放异彩它们能把出图速度提升多达50倍已经逐渐成为工业界大规模应用的标准配置。速度提上去了这类模型在精确遵循指令、复杂文字渲染以及物体位置摆放上依然面临不少挑战。强化学习 (RL) 在提升深度学习模型专业能力方面表现极好从大语言模型到标准扩散模型都得益于它的加持。现有的针对少步数生成模型的强化学习算法都依赖一个非常苛刻的假设那就是要求奖励信号必须是可微的。换句话说模型的输出必须要能通过奖励模型进行反向传播计算。这种局限把大量非常重要的现实世界反馈挡在了门外。人类凭借直觉给出的喜欢或讨厌、画面里物体的具体数量、文字识别模型算出的拼写正确率本质上都是不可微的。大语言模型早已证明引入这些通用的不可微奖励是激发模型隐藏潜力的关键钥匙。研究团队基于一种领先的少步数模型轨迹分布匹配 (TDM)开发了TDM-R1架构。经过TDM-R1强化后的Z-Image模型仅仅耗费4次函数评估次数 (NFE)就能生成极其逼真且细节丰富的图像。拆解学习与替代机制要利用不可微的奖励信号来强化训练好的少步数模型面临一个很现实的困难。奖励信号通常是对一张完整清晰的最终图片打分少步数模型是从一团噪点开始逐步去噪生成图片给中间某个去噪阶段打分非常困难。以前的方法往往直接把整条生成路径终点的得分硬套给中间每一个步骤这给中间步骤的训练引入了巨大的偏差。TDM-R1巧妙地把学习过程拆分成了替代奖励学习和生成器学习两个部分。传统的随机采样路径充满了不确定性TDM模型采用的是确定性的生成轨迹这就好比一辆沿着固定轨道行驶的列车研究人员可以非常精准地为轨迹上的每一个中间样本算出无偏差的奖励评估大幅降低了估算奖励时的误差。有了精准的评估研究团队并没有生搬硬套传统的扩散强化学习方法。传统方法如果处理不可微奖励往往等同于去噪损失的加权组合这种机制在步数很少的情况下特别容易生成模糊的废片。TDM-R1的做法是引入一个替代奖励模型。系统在每次训练迭代中让当前模型生成一组带有条件限制的样本对这些样本按轨迹收集并进行打分。系统根据分数把中间噪点样本分成正向和负向两组通过一种对比机制让替代奖励模型学习到更精细的优劣偏好。上图直观展现了这种机制的优势。在要求画一个带有“TDM-R1”标牌的宇航员或者带有字幕的龙时如果直接用传统强化学习损失配合TDM画面会变得非常模糊且色彩失真TDM-R1的4步生成结果不仅文字清晰画面质感也远超传统方式。4步超越80步研究团队选用了业界公认难度极高的GenEval基准测试这个测试包含了物体数量、空间关系、属性绑定等六种复杂的组合生成场景。测试数据展现了TDM-R1强悍的实力。经过TDM-R1加持的SD3.5-M模型仅仅使用4步生成就在GenEval测试中拿下了0.92的惊人高分。相比之下它原本需要80步计算的基础模型SD3.5-M得分只有0.63耗费100步的Z-Image模型得分为0.66甚至连业界标杆GPT-4o也只拿到了0.84分。TDM-R1不仅在总体得分上遥遥领先于其他少步数模型在物体计数、颜色识别、位置关系和属性绑定等各个细分维度上都取得了全面碾压的成绩。这种遵循指令能力的巨大提升并没有以牺牲画质为代价。为了防止模型只顾着迎合训练分数而把图画得很难看研究人员专门使用了五种独立且未参与训练的图像质量评估指标来做盲测。从数据可以看到无论是在美学评分还是人类偏好得分上仅用4步的TDM-R1都高于原本耗费80步的基础模型。在视觉文字渲染任务中模型也展现出了令人惊喜的协同进化能力在一个维度的训练能够带动另一个独立维度的成绩上升。定性对比更加直观。当你要求画一个“在苹果左边的汉堡”或者“五个可爱的柯基”TDM-R1能精准满足要求画面质感极佳而基础的TDM模型和80步的基础模型要么画错了位置要么画错了数量。研究人员使用最新的人类偏好评估系统HPSv3作为奖励信号对Z-Image进行了强化训练。搭载了TDM-R1的4步Z-Image模型在各项指标上全面超越了耗费100步的原始Z-Image以及同样是4步的Z-Image-Turbo版本。在最核心的HPSv3人类偏好得分上它从基础的7.32分一路飙升到了9.90分同时还顺带把视觉质量、文本拼写和GenEval的成绩都提上了一个新台阶。要求生成“一只坐在白色小船里面的狗”或是“发光线条构成的几何狼”100步的原始模型和4步的普通加速模型在细节处理上都有瑕疵而使用TDM-R1训练出的4步模型完美还原了文本要求的所有要素光影和材质表现十分细腻。摒弃传统微调路径为什么一定要费这么大劲去搞替代奖励模型呢。为了验证这套机制的必要性研究人员做了多组对比实验。他们尝试直接把针对标准扩散模型设计的强化学习损失跟少步数蒸馏技术硬拼凑在一起。数据无情地揭示了这种简单粗暴做法的后果模型在训练初期只有极其微弱的提升到了后期画面质量直线下降生成的图片变得一团糟。这种画质衰退源于底层逻辑的冲突传统强化学习的去噪目标与少步数蒸馏技术从根本上是不兼容的。他们又做了一个测试用一个已经被强化学习训练好的模型去蒸馏少步数学生模型。这种传统做法会让学生模型的潜力被老师模型死死卡住早早就碰到了性能天花板。TDM-R1能够在训练全程源源不断地吸收新的奖励信号性能得分就像一条不断攀升的曲线远远甩开了传统蒸馏方式。TDM-R1通过引入动态替代奖励机制配合确定性的采样轨迹成功化解了少步数生成模型无法利用大规模不可微奖励的难题。它为未来的AI生图技术指明了一条兼顾极致效率与超高精度的可行之路。参考资料https://luo-yihong.github.io/TDM-R1-Page/https://github.com/Luo-Yihong/TDM-R1https://arxiv.org/pdf/2603.07700