EASE VS SD-LoRA 并排对比,一眼看懂两篇顶刊
一 简单描述这两篇论文都在做foundation model 场景下的 class-incremental learning也都强调exemplar-free / rehearsal-free。但它们的思路其实很不一样EASE走的是“显式扩子空间”路线。每来一个任务就加一个 adapter形成新的任务子空间再靠prototype complement把旧类在新子空间里的表示补出来。SD-LoRA走的是“参数更新方向复用”路线。不是给每个任务搞一套显式分类子空间而是把 LoRA 更新拆成direction magnitude保留旧方向只继续学新方向和所有方向的缩放系数。二 并排对比表维度EASESD-LoRA论文定位解决 PTM-based CIL 中“新任务覆盖旧任务”的问题同时避免 expandable backbone 的高成本和 exemplar 依赖。解决 foundation-model CIL 中“随着任务数增长prompt/LoRA 池或 rehearsal 方案不够 scalable”的问题强调 rehearsal-free、inference-efficient、end-to-end 三者兼得。核心范式Adapter-based subspace expansion每个任务一个独立 adapter一个任务一个子空间。Decoupled LoRA把 LoRA 更新拆成 magnitude 和 direction旧 direction 固定新任务增量学习新 direction并联合调整各 direction 的 magnitude。抗遗忘机制通过“新任务写入新 adapter”来避免直接改坏旧任务特征旧知识以历史子空间形式保留。通过“保留历史 LoRA direction只重标定 magnitude 并新增少量 direction”来沿低损失路径移动减少对旧任务的破坏。统一分类怎么做用prototype-based classifier把各子空间的 prototype 拼起来分类。最大难点是旧类在新子空间中没样本因此用semantic-guided prototype complement补齐。不搞 prototype 补全直接用最后训练好的模型推理不需要测试时做 task/component selection。最有辨识度的创新点语义引导的原型补全用旧/新类在共现空间中的相似性去重建旧类在新子空间里的 prototype。direction–magnitude decoupling作者还给出经验和理论分析说明早期 direction 更关键后续 direction 更像小修正。推理形态推理时要聚合多个 adapter 子空间的特征并对子空间 logits 做 reweight。推理时直接使用最终模型无需 prompt/LoRA 组件选择因此更强调 inference scalability。参数增长方式随任务数增长持续保存 adapter作者明确说 adapter 很轻量但长期看模型体积仍会增加。也会随任务增加 LoRA 组件但提出SD-LoRA-RR和SD-LoRA-KD两个变体来降低参数增长。实验优势在 7 个 benchmark 上取得最优且不用 exemplars还接近“有 exemplars 直接算旧类 prototype”的 upper bound。在多个 benchmark 和不同 task length 上优于现有方法尤其强调任务数变多时优势扩大同时兼顾推理效率与零存储旧样本。更像哪类方法更像architecture expansion / feature-space composition。更像PEFT low-loss path / model merging 风格。主要短板子空间越来越多adapter 需要一直存作者把 adapter 压缩列为未来方向。尽管更 scalable但本质上仍是增量叠加 LoRA 组件所以极长任务序列下仍需继续控制参数膨胀。三 再从研究视角并排看1. 它们到底在“保护什么”EASE 更像是在保护表示空间。它假设灾难性遗忘主要来自“新任务把旧特征空间改坏了”所以干脆给每个任务独立子空间让旧任务特征别被动。问题变成这些子空间最后怎么统一分类。于是才有 prototype complement。SD-LoRA 更像是在保护参数更新轨迹。它假设多个任务的较优解可能落在相近、甚至部分重叠的低损失区域所以重点不是“彻底隔离任务”而是“保留历史更新方向在已有好方向上继续调节步长和少量新方向”。2. 它们如何解决“没有旧样本”EASE 的回答是不用旧样本也能重建旧类在新空间中的 prototype。这是一个很强的“分类器补全”思路。SD-LoRA 的回答是尽量别把问题变成旧类重建问题。它通过保持参数更新方向的连续性直接让最终模型维持对旧任务的能力不额外设计prototype reconstruction。3. 哪个更“工程友好”如果你关心结构直观、模块清晰、解释性强EASE 很强“每任务一个 adapter prototype 补全 子空间集成”逻辑很完整也很好做消融。如果你关心推理效率和长任务序列的扩展性SD-LoRA 更占优论文明确把 “rehearsal-free inference-efficient end-to-end optimization” 当成设计目标而且给了效率表ImageNet-R (N20) 上 SD-LoRA 与 InfLoRA 一样是 35.12 GFLOPs但不需要存旧特征SD-LoRA-RR 还能把可学习参数从 0.37M 压到 0.23M。四 实验结果怎么理解1.EASEEASE 在 ViT-B/16-IN21K backbone 下7 个 benchmark 都是表中最优比如 CIFAR100 为91.51 / 85.80CUB 为92.23 / 86.81ImageNet-R 为78.31 / 70.58ImageNet-A 为65.34 / 55.04。作者还说它在若干数据集上比 runner-up 高出约4%–7.5%。更关键的是EASE 不用 exemplars却几乎追平了“存 exemplars 直接算旧类 prototype”的 upper bound在 ImageNet-R B0 Inc20 上upper bound 是81.73 / 76.08EASE 是81.73 / 76.17在 CIFAR B0 Inc10 上 upper bound 是92.32 / 87.79EASE 是92.35 / 87.76。这几乎直接证明了 prototype complement 的有效性。2.SD-LoRASD-LoRA 在 ImageNet-R 的不同 task length 上都优于对比方法而且任务越多优势越明显。论文还明确写到在 ImageNet-R (N20) 上SD-LoRA 相比 InfLoRAAcc 提升7.68%AAA 提升4.62%。在 ImageNet-A 上也明显优于 HiDe-Prompt。具体数值上ImageNet-A (N10) 为55.96 / 64.95DomainNet (N5) 为72.82 / 78.89两个轻量变体 RR 和 KD 只带来很小性能损失。五 如果要把它们当成硕士研究切入点1.更适合从 EASE 往下做的方向如果你偏好表示学习 / 原型学习 / 无样本分类器补全EASE 很适合继续挖。因为它天然留下几个可研究问题prototype complement 能不能更强比如从 similarity mapping 升级到 learned transport / generative prototype completionadapter 数量增长后怎么做压缩、合并或路由prototype-based classifier 是否能和更强的 calibration 结合。2.更适合从 SD-LoRA 往下做的方向如果你偏好PEFT / optimization / 理论分析 / scalabilitySD-LoRA 更适合。因为它天然对应的问题是direction 为什么能跨任务复用低损失路径能否更显式地建模RR/KD 能否做成更有理论保证的 rank allocation / component pruning能不能把 decoupled LoRA 和 adapter / prefix / prompt 结合。六 最后给你一个结论版EASE更像是在说“我给每个任务一个独立特征子空间再想办法把这些子空间拼成统一分类器。”SD-LoRA更像是在说“我不强调任务隔离子空间而是复用历史参数更新方向在共享低损失区域里持续前进。”所以如果你问我两篇谁更“像一条主线上的连续演进 ? ”答案其实是不是。它们代表的是 CILPEFT 里两条不同哲学。EASE 偏表示空间扩展SD-LoRA 偏参数更新几何