标题SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training来源arXiv, 2605.08738v1️文章简介研究问题在大规模预训练阶段如何有效地对混合专家MoE大语言模型进行结构化剪枝与知识蒸馏以实现高效压缩并保留模型能力主要贡献论文系统研究了 MoE 模型的预训练压缩方案提出了部分保留专家合并策略、多 token 预测蒸馏方法及渐进式剪枝调度成功将 Qwen3-Next-80A3B 压缩为高性能的 23A2B 模型。重点思路初始化验证对比从头训练与基于剪枝权重的初始化证实剪枝后的预训练 MoE 模型在相同算力预算下能提供更强的初始状态收敛更快且最终性能更优。专家压缩策略提出“部分保留”专家合并策略即保留一半最重要专家不变将剩余专家按相似度合并至其他基座专家中避免表示同质化并提升下游任务表现。训练目标优化设计混合损失函数结合标准语言建模损失与知识蒸馏损失并引入多 token 预测MTP蒸馏不仅提升主干网络质量还显著改善推测解码的多 token 接受率。渐进式剪枝调度摒弃一次性压缩采用深度优先、宽度优先或联合渐进式剪枝方案分阶段减少模型容量并进行持续预训练以获得更平滑的优化轨迹和更好的知识迁移效果。分析总结实验表明在匹配训练 token 数量下基于剪枝初始化的模型在推理、生成及代码等任务上均显著优于随机初始化从头训练的模型。不同的一次性专家剪枝或合并方法在经过大规模持续预训练后最终性能差异微小但引入部分保留策略后能在多数基准测试中获得一致性提升。混合使用语言建模损失与知识蒸馏损失优于单纯蒸馏特别是在知识密集型任务上MTP 蒸馏进一步带来了稳定的性能增益及推理效率提升。渐进式剪枝策略在所有配置下均超越一次性压缩证明分阶段降低模型容量有助于缓解信息丢失其中深度优先策略SlimQwen表现最佳。个人观点论文入探索了 MoE 架构在预训练阶段的压缩规律提出的“部分保留”专家合并机制巧妙平衡了知识继承与结构整合。