DeepSeek V1

张

张建站

2026/5/30 20:46:59

10分钟阅读

论文标题DeepSeek LLM: Scaling Open-Source Language Models with Longtermismhttps://arxiv.org/pdf/2401.029541.数据2万亿文本用于预训练1000万条用于SFT。对数据进行处理包含去重、过滤和重混。去重和重混阶段通过对唯一实例进行采样,确保了数据的多样化表示。过滤阶段提高了信息密度,从而实现了更高效、更有效的模型训练。采用字节级别字节对编码BBPE拆数字词元数量控制在10w合并不同语言的符号字符。2.架构沿用llama2架构具体采用rmsNorm函数的pre-Norm结构使用swiGLU作为前馈网络的激活函数旋转嵌入分组查询注意力 GQA代替多头注意力MHA。DeepSeek LLM 使用标准差 0.006 进行初始化,并使用 AdamW 优化器 (Loshchilov and Hutter, 2017) 进行训练,超参数如下: β1 0.9, β2 0.95,以及权重_衰减 0.1。在预训练阶段,采用了多步学习率调度器,而非典型的余弦调度器。具体而言,模型的学习率在 2000 个预热步数后达到最大值, 随后在处理完 80% 的训练词元后降至最大值的 31.6%。在处理完 90% 的词元后,进一步降至最大值的 10%。训练阶段的梯度裁剪设置为 1.03.基础设施使用了一个名为HAI-LLM的高效轻量级训练框架混合并行策略采用了数据并行Data Parallelism、张量并行Tensor Parallelism、序列并行Sequence Parallelism以及1F1B 流水线并行1F1B Pipeline Parallelism显存优化利用ZeRO-1技术在数据并行秩之间对优化器状态进行切分算子融合为了提速框架融合了 LayerNorm、GEMM通用矩阵乘法以及 Adam 优化器更新等操作4.缩放定律Scaling Laws的演变传统计算预算 C 预训练大语言模型时投入的总计算资源量通常根据模型参数量N和训练数据量D即 token 数量来估算公式为C≈6ND 这里将每个 token 的前向和后向传播开销近似为模型参数量的 6 倍。传统的参数表示法6ND没有考虑到注意力操作attention operation的计算开销在小规模模型中可能导致高达50% 的近似误差。DeepSeek 引入了新的指标CMD。 D 代表数据集中的token 数量批次大小逐渐增大这意味着模型规模越大、训练数据越多时需要更大的批次来保持训练效率和稳定性。学习率逐渐减小大模型训练通常需要更小且更谨慎的学习率以防止训练崩溃并确保收敛5.各类验证--安全验证6.参考内容1. llama2架构图 https://blog.csdn.net/CV_Autobot/article/details/137534667https://zhuanlan.zhihu.com/p/6774235442. 流水线https://zhuanlan.zhihu.com/p/1922398748941723463https://www.bilibili.com/video/BV1QToSY6EMm/?spm_id_from333.337.search-card.all.clickvd_sourced822e911a2ea10d2b0720afa70f0c3573. 各类并行https://zhuanlan.zhihu.com/p/659792351https://zhuanlan.zhihu.com/p/5049576614.All-reduce: https://zhuanlan.zhihu.com/p/5049576615.zero1,2,3:https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/https://www.cnblogs.com/gongzb/p/190874236. deepseek讲解https://zhuanlan.zhihu.com/p/19015602441879603157. pre-Norm和post-Norm pre-Norm和post-Norm https://zhuanlan.zhihu.com/p/686188942https://www.bilibili.com/video/BV1QbYhzzEZr/?spm_id_from333.337.search-card.all.clickvd_sourced822e911a2ea10d2b0720afa70f0c3578. GQA, MHA: gqa mha: https://zhuanlan.zhihu.com/p/686149289

量子计算中的测量基优化与误差缓解技术

1. 量子计算中的测量基优化技术解析在量子计算实践中，测量基优化是提升计算效率的核心技术之一。当我们面对需要多个测量基的量子算法时（如VQE中的哈密顿量期望值估计），如何合理分配有限的量子资源成为关键问题。让我们从一个具体…...

2026/5/30 20:43:08 阅读更多 →

临时驻场人员考勤难题怎么破？实测3类工具后，这款轻量化神器让核算效率提升80%

作为专注考勤工具实测的博主，最近收到不少企业主和HR的私信：“临时驻场人员考勤怎么管？项目地没网络、人员流动大、班制不固定，Excel算到崩溃！” 确实，临时驻场场景（如工程驻场、活动执行、短期…...

2026/5/30 20:38:15 阅读更多 →

芯片失效分析（FA）中的开封工艺详解：技术路线与设备选型

声明：本文首发于微信公众号「开芯半导体」，已获授权转载。内容为行业技术总结，仅作交流分享，不构成任何采购或投资建议。一、开封工艺的主要技术难点 1. 热影响区（HAZ）控制激光开封效率高，但局…...

2026/5/30 20:36:55 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/30 18:03:41 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/30 18:09:47 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/30 1:26:17 阅读更多 →