论文标题DeepSeek LLM: Scaling Open-Source Language Models with Longtermismhttps://arxiv.org/pdf/2401.029541.数据2万亿文本用于预训练1000万条用于SFT。对数据进行处理包含去重、过滤和重混。去重和重混阶段通过对唯一实 例进行采样,确保了数据的多样化表示。过滤阶段提高了信息密度,从而实现了更高效、更有 效的模型训练。采用字节级别字节对编码BBPE拆数字词元数量控制在10w合并不同语言的符号字符。2.架构沿用llama2架构具体采用rmsNorm函数的pre-Norm结构使用swiGLU作为前馈网络的激活函数旋转嵌入分组查询注意力 GQA代替多头注意力MHA。DeepSeek LLM 使用标准差 0.006 进行初始化,并使用 AdamW 优化器 (Loshchilov and Hutter, 2017) 进行训练,超参数如下: β1 0.9, β2 0.95,以及权重_衰减 0.1。在预训练阶段,采用了多步学习率调度器,而非典型的余弦调度器。具体而言,模型的学习率在 2000 个预热步数后达到最大值, 随后在处理完 80% 的训练词元后降至最大值的 31.6%。 在处理完 90% 的词元后,进一步降至最大值的 10%。训练阶段的梯度裁剪设置为 1.03.基础设施使用了一个名为HAI-LLM的高效轻量级训练框架混合并行策略采用了数据并行Data Parallelism、张量并行Tensor Parallelism、序列并行Sequence Parallelism以及1F1B 流水线并行1F1B Pipeline Parallelism显存优化利用ZeRO-1技术在数据并行秩之间对优化器状态进行切分算子融合为了提速框架融合了 LayerNorm、GEMM通用矩阵乘法以及 Adam 优化器更新等操作4.缩放定律Scaling Laws的演变传统计算预算 C 预训练大语言模型时投入的总计算资源量通常根据模型参数量N和训练数据量D即 token 数量来估算公式为C≈6ND 这里将每个 token 的前向和后向传播开销近似为模型参数量的 6 倍。传统的参数表示法6ND没有考虑到注意力操作attention operation的计算开销在小规模模型中可能导致高达50% 的近似误差。DeepSeek 引入了新的指标CMD。 D 代表数据集中的token 数量批次大小逐渐增大这意味着模型规模越大、训练数据越多时需要更大的批次来保持训练效率和稳定性。学习率逐渐减小大模型训练通常需要更小且更谨慎的学习率以防止训练崩溃并确保收敛5.各类验证--安全验证6.参考内容1. llama2架构图 https://blog.csdn.net/CV_Autobot/article/details/137534667​​​​​​https://zhuanlan.zhihu.com/p/6774235442. 流水线https://zhuanlan.zhihu.com/p/1922398748941723463https://www.bilibili.com/video/BV1QToSY6EMm/?spm_id_from333.337.search-card.all.clickvd_sourced822e911a2ea10d2b0720afa70f0c3573. 各类并行https://zhuanlan.zhihu.com/p/659792351https://zhuanlan.zhihu.com/p/5049576614.All-reduce: https://zhuanlan.zhihu.com/p/5049576615.zero1,2,3:https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/https://www.cnblogs.com/gongzb/p/190874236. deepseek讲解https://zhuanlan.zhihu.com/p/19015602441879603157. pre-Norm和post-Norm pre-Norm和post-Norm https://zhuanlan.zhihu.com/p/686188942https://www.bilibili.com/video/BV1QbYhzzEZr/?spm_id_from333.337.search-card.all.clickvd_sourced822e911a2ea10d2b0720afa70f0c3578. GQA, MHA: gqa mha: https://zhuanlan.zhihu.com/p/686149289