DeepSeek V4 正式发布1.6万亿参数、百万上下文开源大模型进入新阶段2026年4月24日深度求索DeepSeek正式发布了新一代旗舰模型DeepSeek-V4并同步开源模型权重。这是距 V3 发布484天之后的一次重大版本迭代。和 V3 一样V4 依然走的是全开源路线。但这一次DeepSeek 把参数规模、上下文长度、架构设计都推到了一个新的量级上。本文不吹不捧只把这次更新的真实内容梳理清楚。这次发布了什么V4 系列包含两个版本版本参数量激活参数上下文V4-Pro1.6 万亿1.6T~490 亿100万 tokenV4-Flash2840 亿284B130 亿13B100万 token两者的定位有明确区分V4-Pro满血版本面向复杂推理、代码架构、数理等高难度任务V4-Flash轻量版本主打高吞吐和低价格适合日常和规模化场景亮点一100万 token 上下文成标配如果说 V3 之前的长上下文还是高配能力V4 直接把它变成了标配。两个版本都原生支持 100万 token1M的上下文窗口。这意味着你可以直接把一个大型代码仓库、一部长篇技术文档完整丢给模型处理不需要做分段切割。当然这里需要说明一个实际限制虽然上下文窗口是100万 token但模型的实际有效理解范围并不等于窗口上限。超长上下文下模型对开头和结尾内容的关注度通常高于中间部分这是 Transformer 架构本身的特性100万窗口解决的是放得下的问题理解得到位还取决于后续优化。亮点二稀疏注意力机制让长上下文真正可用100万 token 上下文如果用传统全注意力机制计算量和显存开销是天文数字。V4 为此引入了DSADeepSeek Sparse Attention稀疏注意力机制具体采用了CSA HCA 混合结构CSA压缩稀疏注意力将每 m 个 token 的 Key-Value 信息压缩成一个块用轻量 indexer 计算相关性分数只在 top-k 压缩块上做精细注意力。适合 token 级别的精确检索。HCA深度压缩注意力更激进地将 128 个 token 压缩成一个块。适合长距离的全局信息汇总。实测效果在 100万 token 场景下V4-Pro 的单 token FLOPs 降至 V3.2 的 27%KV Cache 压缩到原来的约10%。这个数字的意义在于——它让百万上下文从理论上可行变成了实际跑得动。亮点三mHC 架构残差连接的10年来首次升级这是 V4 技术报告中被讨论最多的创新之一。自 2016 年 ResNet 提出残差连接Residual Connection以来这个机制一直是深度学习的基础组件但随着模型越来越深其信号传递不稳定的问题也逐渐显现。V4 引入的mHC流形约束超连接机制做了这样一件事将残差流的混合矩阵约束到Birkhoff 多面体的流形上使矩阵的行列都归一化为1。这个设计带来了两个实际好处谱范数天然不超过1为残差传播设置了硬上限信号传递更稳定乘法封闭性保证堆叠多层如 V4-Pro 的61层时依然保持数值稳定同时mHC 带来的额外开销被控制在 wall-time 的 6.7% 以内实际影响很小。亮点四预训练数据量翻倍版本预训练数据量V314.8T tokenV4-Flash32T tokenV4-Pro33T tokenV4 的预训练数据量较 V3翻了一倍以上。数据量增长带来的直接收益是世界知识的覆盖面扩大。V4-Pro 在各项知识 benchmark 上逼近 Gemini-Pro-3.1而 V4-Flash 在简单 Agent 任务上与 Pro 版本表现相当。亮点五开源权重 昇腾适配V4 延续了 DeepSeek 一贯的开源策略模型权重以Apache 2.0许可证开源可商用。另外值得关注的是V4 实现了华为昇腾 SuperNode 的首日零日适配。这意味着在国产算力生态中V4 是目前适配最快的万亿参数级别开源模型。亮点六价格有诚意也有差异根据官方 API 文档V4 的完整定价如下单位元/百万 tokens版本缓存命中输入缓存未命中输入输出V4-Flash0.2 元1 元2 元V4-Pro1 元限时 0.25 元12 元24 元V4-Flash 的定价确实刷新了性价比认知0.2 元/百万 token 的输入成本已经大幅低于市场同类产品。另外值得注意的是V4-Pro 目前有限时优惠缓存命中输入价格降至 0.25 元原价 1 元优惠截止至2026年5月5日。优惠期后 V4-Pro 的日常价格并不低选择时需要结合实际需求。旧接口deepseek-chat与deepseek-reasoner将于2026年7月24日停用届时将统一路由至 V4 系列。性能表现什么水平V4-Pro 在几个关键 benchmark 上的表现基准V4-Pro 成绩对比SWE-bench80.6%Agent 代码能力开源模型榜首数理推理超越所有已公开评测的开源模型逼近顶级闭源世界知识逼近 Gemini-Pro-3.1仍有差距需要注意的是benchmark 成绩反映的是特定测试集上的表现与实际使用体验不一定完全对应。模型在真实场景中的效果还取决于任务类型、提示词设计、具体场景匹配度等多种因素。两个版本怎么选根据目前的官方信息建议如下选 V4-Pro代码架构设计、SWE 类任务多步复杂推理需要最强数理和代码能力替代 Claude Sonnet / GPT-5 类的复杂任务选 V4-Flash日常对话、文档总结高并发、高吞吐场景规则明确的自动化任务成本敏感的规模化部署几点客观说明写这篇文章的过程中有几个点我特意想提一下1. 关于参数规模1.6万亿参数听起来很大但这是总参数量。V4 采用了 MoE混合专家架构每次推理只激活约490亿参数V4-Pro。所以实际推理开销远没有1.6T看起来那么夸张。2. 关于 benchmark 成绩这些数字是官方公布的各家厂商的 benchmark 成绩往往经过精心配比和测试集选择不同模型之间直接对比存在口径差异。参考可以别当成绝对标尺。3. 关于长上下文的真实体验100万 token 窗口是技术突破但实际使用中能放进去和理解得好是两件事。模型在超长上下文中的中间位置往往存在注意力衰减这是 Transformer 架构的特性不是 V4 独有的问题。4. 关于开源的持续性DeepSeek 之前的模型也有开源但社区维护、更新节奏、长期支持等都需要观察。开源模型的价值不只是发布那一刻取决于后续社区生态的跟进。总结DeepSeek V4 是一次实打实的升级——参数规模更大、上下文更长、架构有新意、价格有诚意。对于开源社区来说V4 的发布确实是这个春天值得关注的一件事。但作为从业者我更愿意保持一个客观的态度大模型的能力是真实的进步但落地效果因场景而异是否适合自己还是那句话看任务看场景看成本。参考来源DeepSeek 官方 API 文档platform.deepseek.comDeepSeek 开放平台定价platform.deepseek.com/pricingHuggingFacehuggingface.co/deepseek-ai/DeepSeek-V4-FlashDeepSeek 公众号发布于 2026年4月24日36氪《DeepSeek 正式发布 V4 APIFlash/Pro 双版本齐发百万上下文成标配》2026年4月24日原创内容转载需授权。