机器学习周报三十八

张

张建站

2026/6/21 8:50:52

10分钟阅读

## 摘要本周阅读了论文GCPO针对当前实验出现的预测目标稀疏、全局建模困难的问题进行简单的梳理从GCPO找到解决办法。 ## Abstract This week, I read the paper GCPO and briefly reviewed the issues of sparse prediction targets and difficulties in global modeling that have arisen in current experiments, aiming to find solutions from GCPO.残差img1与img2之间只有文本区域不同residualimg2-img1得到的就是图片大致需要编辑的区域将残差作为模型需要预测的目标输入[rec2(新文本),img1_latent(原图)]模型从rec2和img1_latent中学习预测这个对应的残residual。自回归模型是从零生成的如果重新生成一个图片就会引入伪影和漂移导致效果不好只对残差进行预测就可以只编辑部分区域。1、稀疏残差作为目标稀疏性太高输入的原图经过处理后是32*128的需要从大的图片编辑文本这个较小的区域稀疏的目标不适合预测。2、伪影低分辨率导致的边缘模糊上采样层把特征上采样到图片尺寸会导致字体的边缘模糊。原图生成图效果图全图生成输入[rec2(新文本),img1_latent(原图)]到模型然后学习图片的KV特征拼接查询[txt_query,img_query]得到生成的图片img2和对img1的识别。将目标文本和图片在第一阶段融合第二阶段可以从零生成目标图片。1、损失目标不一致识别损失(rec_loss)与生成损失(mse_loss)的目标不一致rec_loss希望kv特征中保留足够识别rec1的信息。生成损失(img_mse_loss)希望可以从kv特征重建出img2而img2的文字是rec2与rec1不同。2、没有显式空间建模缺少图片mask来计算注意力损失让注意力更多关注文本区域没有空间对齐Group Critical-token Policy Optimization for Autoregressive Image Generation由于AR模型的自注意力机制早期生成的token持续影响后续所有token对图像整体结构起到决定性作用。实验显示对前10%的图像token添加扰动会导致图像全局结构发生明显变化而对中间token的扰动仅影响有限的局部细节。研究发现token熵的梯度图能够稳定地标识出图像中的结构区域。高熵梯度token通常对应于主体结构或视觉区域间的过渡区域这些区域随着RL训练变得更加明显显示出对RL训练的敏感性。熵梯度反映的是图像中结构边界和视觉区域连接处的变化强度是识别图像结构关键 token 的稳定指标。在GRPO的组内采样中某些位置的token在不同图像间展现出显著差异性。低相似度token往往对应复杂结构区域为策略优化提供更丰富信息。GCPO框架1、关键Token选择策略综合上述三个角度从全部Token中筛选出约30%的关键Token。2、动态优势权重基于策略模型与参考模型在关键Token上的置信度差异为每个关键Token分配动态的优势权重以分配不同程度的探索权重。首先为每一个提示生成一组图片选择前10%的关键token为zinitz_{init}zinit然后从剩下的token根据熵梯度、相似性对剩下的token来进行采样为每一类token分配一个权重通过训练动态调整这个权重。对这组图片也会获得奖励效果好的得到的奖励更高同时组内计算奖励均值和标准差这个图片相对其他图片好与坏由公式(Ri−R‾)σ\frac{(R_i-\overline{R})}{\sigma}σ(Ri−R)对于我的问题1.引导模型聚焦文本区域关键 token可以在损失计算中赋予它们更高的权重迫使模型优先保证文本区域的准确重建。这直接针对任务核心——文本内容的正确性和视觉一致性。提升序列生成的稳定性在自回归中优化这些关键token的预测精度可以为后续生成提供更可靠的上下文避免误差累积。强化文本-图像对齐关键 token 可以显式地与文本条件建立更强的关联使模型在生成每个图像 patch 时都能充分参考对应的文本字符信息提高文本布局和风格的准确性。改善样本效率模型可以更快地学习到文本编辑的本质规律而不是浪费容量在背景等无关区域上。这在不增加数据集的情况下尤其重要。总结阅读GCPO论文后觉得可以用于优化预测的目标和流程解决稀疏和全局重建的劣势。

5个专业级技巧：用Fast-F1实现F1赛事数据深度分析

5个专业级技巧：用Fast-F1实现F1赛事数据深度分析【免费下载链接】Fast-F1 FastF1 is a python package for accessing and analyzing Formula 1 results, schedules, timing data and telemetry 项目地址: https://gitcode.com/GitHub_Trending/fa/Fast-F1 …...

2026/6/21 8:48:08 阅读更多 →

智能缓存加速：重新定义扩散模型推理效率

智能缓存加速：重新定义扩散模型推理效率【免费下载链接】ComfyUI-TeaCache 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-TeaCache 在AI创作领域，等待成为最大的创作阻力。当你使用扩散模型生成图像或视频时，是否曾因漫长的…...

2026/5/21 22:03:53 阅读更多 →

js之工作者线程

概述 #mermaid-svg-SJSwk4Zi3Oj1R9St{font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}@keyframes edge-animation-frame{from{stroke-dashoffset:0;}}@keyframes dash{to{stroke-dashoffset:0;}}#mermaid-svg-SJSwk4Zi3Oj1R9St .ed…...

2026/5/21 22:03:54 阅读更多 →

手撕CNN：从卷积计算到工程落地的全链路解析

1. 这不是“讲概念”的课，是带你亲手拆开CNN看齿轮怎么咬合你点开这篇，大概率不是为了背定义——可能刚被导师甩来一篇CVPR论文，满页的feature map、stride、padding看得头皮发麻；也可能在调一个图像分类模型，loss曲线…...

2026/6/21 0:00:47 阅读更多 →

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PVZ Toolkit是一款专为经典游戏植物大战僵尸设计的综合修改器，它为玩家…...

2026/6/21 0:04:41 阅读更多 →

嵌入式功能安全实践：NXP IEC60730B安全库核心测试与集成指南

1. 项目概述与功能安全背景在嵌入式系统开发领域，尤其是涉及家电、工业控制、汽车电子等安全关键型应用时，仅仅实现功能正确是远远不够的。系统必须在整个生命周期内，具备检测并响应内部硬件故障的能力，以防止因随机硬件失效导致…...

2026/6/21 0:08:30 阅读更多 →

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher XXMI启动器是一款专为二次元游戏模组管理设计的开源平台…...

2026/6/21 0:09:20 阅读更多 →