1. 1D因果图像标记化技术背景与挑战在计算机视觉领域如何将二维图像有效转化为一维序列标记Token是连接自回归语言模型与视觉模型的关键技术瓶颈。传统文本领域的自回归模型如GPT系列之所以成功很大程度上得益于文本数据天然的序列特性——每个词与其前后文存在明确的因果关系。然而当我们将这种范式迁移到图像生成时面临三个核心挑战1.1 图像数据的非序列本质与文本不同图像像素在空间上具有二维局部相关性缺乏天然的序列顺序。现有方法主要采用两种策略2D网格标记化如VQ-VAE将图像分割为16x16的块按光栅顺序展开为1D序列。这种方法破坏了空间局部性导致相邻标记间缺乏语义连贯性。多尺度标记化VAR模型采用金字塔结构从粗到细预测不同尺度的2D标记。虽然保留了一定的空间层次但违背了LLM中下一个标记预测的核心范式。1.2 扩散模型中的因果性缺失扩散自编码器通过将图像压缩为1D标记再用这些标记作为条件指导扩散过程生成图像。但传统方法存在两个关键缺陷全标记条件耦合如FlowMo等模型在解码时同时使用所有标记导致标记间缺乏因果依赖早期标记偏置FlexTok等一致性解码器仅使用前k个标记造成后期标记信息利用率不足1.3 训练效率与生成质量的平衡现有方法通常需要300训练周期才能达到理想效果且难以同时满足高质量的多步重建25步采样高效的一步采样生成稳定的自回归训练收敛关键洞见图像标记化的本质是建立从噪声到图像的可微分路径其中每个标记应对应于生成过程中特定时间段的视觉概念演化。2. CaTok核心架构设计2.1 整体框架概述CaTok采用扩散自编码器架构包含两个核心组件graph LR A[因果ViT编码器] --|提取| B[1D因果标记] B --|条件输入| C[MeanFlow DiT解码器] C -- D[重建图像]2.1.1 因果ViT编码器输入图像x拼接K个可学习寄存器R处理流程class CausalViT(nn.Module): def forward(x, R): # 拼接图像与寄存器 inputs torch.cat([x, R], dim1) # 应用因果注意力掩码 he, Vk transformer(inputs, maskcausal_mask) return he, Vk # 图像特征和1D标记注意力机制约束图像块间全连接标记只能关注其前面的标记类似GPT2.1.2 MeanFlow DiT解码器关键创新时间区间绑定机制随机采样r,t∈[0,1]rt选择标记V[rK:tK]作为条件预测区间[r,t]内的平均速度场2.2 MeanFlow动力学建模2.2.1 理论基础传统Rectified Flow的瞬时速度场v(z_t|x) \frac{d}{dt}z_t ϵ - xMeanFlow改进为区间平均速度u(z_t,r,t) ≜ \frac{1}{t-r}∫_r^t v(z_τ,τ)dτ通过泰勒展开可得近似解u(z_t,r,t) ≈ v(z_t,t) - (t-r)(v∂_zu ∂_tu)2.2.2 实现细节双目标联合训练MeanFlow损失主导长时依赖Rectified Flow损失稳定训练自适应L2损失def adaptive_l2(error): c 1e-3 w 1.0 return error**2 / (error**2 c).detach()**w2.3 REPA-A表征对齐为解决扩散自编码器训练不稳定的问题提出改进版表征对齐def REPA_A(He, Hvfm): # He: 编码器图像特征 # Hvfm: 预训练视觉基础模型特征 sim_matrix F.cosine_similarity(He, Hvfm, dim-1) return -sim_matrix.mean()与原始REPA的区别直接对齐编码器输出与VFM特征避免通过VAE的间接对齐权重设为0.8实验最优值3. 关键实现与训练策略3.1 分阶段训练计划阶段训练周期引入组件学习率批大小初始化1-20基础RF损失1e-41024强化21-40MeanFlow损失5e-52048微调41-80区间选择机制5e-520483.2 自回归建模技巧标记冻结训练完成后固定编码器权重类条件引导def CFG_schedule(k, K): # k: 当前标记位置 return 2.0 * (1 - k/K) # 线性衰减混合精度训练在A100上节省40%显存加速约1.8倍3.3 超参数配置optimizer: AdamW weight_decay: 0.05 ema_rate: 0.999 grad_clip: 3.0 warmup_epochs: 10 scheduler: cosine4. 实验结果与分析4.1 重建性能对比在ImageNet 256×256上的指标方法标记数rFID↓PSNR↑SSIM↑参数量VQGAN2567.94--307MTiTok-L322.2115.600.359614MCaTok-B2561.1722.100.666224MCaTok-L2560.7522.530.674552M关键发现仅用160周期达到SOTA一步采样rFID 4.89仍优于VQGAN4.2 自回归生成质量方法gFID↓IS↑训练周期LlamaGen3.80248.340Semanticist2.57260.9400CaTok-L2.95269.2160优势体现更平衡的标记利用率避免早期偏置支持可变长度条件生成4.3 消融实验验证4.3.1 组件贡献度配置rFID1rFID25仅RF183.691.81MF4.711.90REPA4.311.71完整3.921.154.3.2 标记选择策略策略gFID[r,t]区间4.91全标记13.54前k标记9.215. 实际应用建议5.1 部署注意事项硬件需求最低配置A100 40GB训练推理可运行于RTX 3090内存优化torch.backends.cuda.enable_flash_sdp(True) # 启用FlashAttention量化部署python -m onnxruntime.quantization \ --model CaTok.onnx \ --output CaTok_quant.onnx \ --quant_type QInt85.2 调参经验学习率敏感度5e-5易导致训练发散1e-5收敛缓慢标记维度16维最佳平衡效率与效果超过32维易过拟合5.3 扩展方向多模态适配联合文本-图像标记化借鉴CLIP的对比学习视频生成时间轴因果扩展3D位置编码硬件定制设计专用NPU加速器优化attention稀疏模式这项工作的核心突破在于建立了图像生成中的显式视觉因果链使得每个标记都对应生成过程中特定时间段的语义演变。这种设计不仅提升了自回归生成的连贯性也为理解扩散模型的内部机制提供了新视角。