阿里：大模型MoE剪枝蒸馏策略

张

张建站

2026/5/28 10:28:13

10分钟阅读

标题SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training来源arXiv, 2605.08738v1️文章简介研究问题在大规模预训练阶段如何有效地对混合专家MoE大语言模型进行结构化剪枝与知识蒸馏以实现高效压缩并保留模型能力主要贡献论文系统研究了 MoE 模型的预训练压缩方案提出了部分保留专家合并策略、多 token 预测蒸馏方法及渐进式剪枝调度成功将 Qwen3-Next-80A3B 压缩为高性能的 23A2B 模型。重点思路初始化验证对比从头训练与基于剪枝权重的初始化证实剪枝后的预训练 MoE 模型在相同算力预算下能提供更强的初始状态收敛更快且最终性能更优。专家压缩策略提出“部分保留”专家合并策略即保留一半最重要专家不变将剩余专家按相似度合并至其他基座专家中避免表示同质化并提升下游任务表现。训练目标优化设计混合损失函数结合标准语言建模损失与知识蒸馏损失并引入多 token 预测MTP蒸馏不仅提升主干网络质量还显著改善推测解码的多 token 接受率。渐进式剪枝调度摒弃一次性压缩采用深度优先、宽度优先或联合渐进式剪枝方案分阶段减少模型容量并进行持续预训练以获得更平滑的优化轨迹和更好的知识迁移效果。分析总结实验表明在匹配训练 token 数量下基于剪枝初始化的模型在推理、生成及代码等任务上均显著优于随机初始化从头训练的模型。不同的一次性专家剪枝或合并方法在经过大规模持续预训练后最终性能差异微小但引入部分保留策略后能在多数基准测试中获得一致性提升。混合使用语言建模损失与知识蒸馏损失优于单纯蒸馏特别是在知识密集型任务上MTP 蒸馏进一步带来了稳定的性能增益及推理效率提升。渐进式剪枝策略在所有配置下均超越一次性压缩证明分阶段降低模型容量有助于缓解信息丢失其中深度优先策略SlimQwen表现最佳。个人观点论文入探索了 MoE 架构在预训练阶段的压缩规律提出的“部分保留”专家合并机制巧妙平衡了知识继承与结构整合。

康多塞悖论：读懂所有人纠结、内耗与选择困境的底层逻辑

一、什么是康多塞投票悖论？ 18世纪法国启蒙思想家康多塞，提出了一个颠覆大众认知的悖论，也就是康多塞循环悖论，直白打破了人们对“最优选择”的固有幻想。悖论最核心的模型十分简单：存在A、B、C三个选项，在…...

2026/5/28 10:27:42 阅读更多 →

3步终极指南：用CHD压缩技术为游戏库节省60%存储空间

3步终极指南：用CHD压缩技术为游戏库节省60%存储空间【免费下载链接】romm A beautiful, powerful, self-hosted rom manager and player. 项目地址: https://gitcode.com/GitHub_Trending/rom/romm 在数字游戏收藏日益增长的今天，经典光盘游戏镜…...

2026/5/28 10:25:01 阅读更多 →

D3KeyHelper：暗黑破坏神3终极按键宏工具，5分钟彻底解放双手

D3KeyHelper：暗黑破坏神3终极按键宏工具，5分钟彻底解放双手【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 还在为暗黑3中繁琐…...

2026/5/28 10:24:47 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/25 2:11:12 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →