DeepSeek V4 正式发布：1.6万亿参数、百万上下文，开源大模型进入新阶段

张

张建站

2026/4/26 20:00:32

10分钟阅读

DeepSeek V4 正式发布1.6万亿参数、百万上下文开源大模型进入新阶段2026年4月24日深度求索DeepSeek正式发布了新一代旗舰模型DeepSeek-V4并同步开源模型权重。这是距 V3 发布484天之后的一次重大版本迭代。和 V3 一样V4 依然走的是全开源路线。但这一次DeepSeek 把参数规模、上下文长度、架构设计都推到了一个新的量级上。本文不吹不捧只把这次更新的真实内容梳理清楚。这次发布了什么V4 系列包含两个版本版本参数量激活参数上下文V4-Pro1.6 万亿1.6T~490 亿100万 tokenV4-Flash2840 亿284B130 亿13B100万 token两者的定位有明确区分V4-Pro满血版本面向复杂推理、代码架构、数理等高难度任务V4-Flash轻量版本主打高吞吐和低价格适合日常和规模化场景亮点一100万 token 上下文成标配如果说 V3 之前的长上下文还是高配能力V4 直接把它变成了标配。两个版本都原生支持 100万 token1M的上下文窗口。这意味着你可以直接把一个大型代码仓库、一部长篇技术文档完整丢给模型处理不需要做分段切割。当然这里需要说明一个实际限制虽然上下文窗口是100万 token但模型的实际有效理解范围并不等于窗口上限。超长上下文下模型对开头和结尾内容的关注度通常高于中间部分这是 Transformer 架构本身的特性100万窗口解决的是放得下的问题理解得到位还取决于后续优化。亮点二稀疏注意力机制让长上下文真正可用100万 token 上下文如果用传统全注意力机制计算量和显存开销是天文数字。V4 为此引入了DSADeepSeek Sparse Attention稀疏注意力机制具体采用了CSA HCA 混合结构CSA压缩稀疏注意力将每 m 个 token 的 Key-Value 信息压缩成一个块用轻量 indexer 计算相关性分数只在 top-k 压缩块上做精细注意力。适合 token 级别的精确检索。HCA深度压缩注意力更激进地将 128 个 token 压缩成一个块。适合长距离的全局信息汇总。实测效果在 100万 token 场景下V4-Pro 的单 token FLOPs 降至 V3.2 的 27%KV Cache 压缩到原来的约10%。这个数字的意义在于——它让百万上下文从理论上可行变成了实际跑得动。亮点三mHC 架构残差连接的10年来首次升级这是 V4 技术报告中被讨论最多的创新之一。自 2016 年 ResNet 提出残差连接Residual Connection以来这个机制一直是深度学习的基础组件但随着模型越来越深其信号传递不稳定的问题也逐渐显现。V4 引入的mHC流形约束超连接机制做了这样一件事将残差流的混合矩阵约束到Birkhoff 多面体的流形上使矩阵的行列都归一化为1。这个设计带来了两个实际好处谱范数天然不超过1为残差传播设置了硬上限信号传递更稳定乘法封闭性保证堆叠多层如 V4-Pro 的61层时依然保持数值稳定同时mHC 带来的额外开销被控制在 wall-time 的 6.7% 以内实际影响很小。亮点四预训练数据量翻倍版本预训练数据量V314.8T tokenV4-Flash32T tokenV4-Pro33T tokenV4 的预训练数据量较 V3翻了一倍以上。数据量增长带来的直接收益是世界知识的覆盖面扩大。V4-Pro 在各项知识 benchmark 上逼近 Gemini-Pro-3.1而 V4-Flash 在简单 Agent 任务上与 Pro 版本表现相当。亮点五开源权重昇腾适配V4 延续了 DeepSeek 一贯的开源策略模型权重以Apache 2.0许可证开源可商用。另外值得关注的是V4 实现了华为昇腾 SuperNode 的首日零日适配。这意味着在国产算力生态中V4 是目前适配最快的万亿参数级别开源模型。亮点六价格有诚意也有差异根据官方 API 文档V4 的完整定价如下单位元/百万 tokens版本缓存命中输入缓存未命中输入输出V4-Flash0.2 元1 元2 元V4-Pro1 元限时 0.25 元12 元24 元V4-Flash 的定价确实刷新了性价比认知0.2 元/百万 token 的输入成本已经大幅低于市场同类产品。另外值得注意的是V4-Pro 目前有限时优惠缓存命中输入价格降至 0.25 元原价 1 元优惠截止至2026年5月5日。优惠期后 V4-Pro 的日常价格并不低选择时需要结合实际需求。旧接口deepseek-chat与deepseek-reasoner将于2026年7月24日停用届时将统一路由至 V4 系列。性能表现什么水平V4-Pro 在几个关键 benchmark 上的表现基准V4-Pro 成绩对比SWE-bench80.6%Agent 代码能力开源模型榜首数理推理超越所有已公开评测的开源模型逼近顶级闭源世界知识逼近 Gemini-Pro-3.1仍有差距需要注意的是benchmark 成绩反映的是特定测试集上的表现与实际使用体验不一定完全对应。模型在真实场景中的效果还取决于任务类型、提示词设计、具体场景匹配度等多种因素。两个版本怎么选根据目前的官方信息建议如下选 V4-Pro代码架构设计、SWE 类任务多步复杂推理需要最强数理和代码能力替代 Claude Sonnet / GPT-5 类的复杂任务选 V4-Flash日常对话、文档总结高并发、高吞吐场景规则明确的自动化任务成本敏感的规模化部署几点客观说明写这篇文章的过程中有几个点我特意想提一下1. 关于参数规模1.6万亿参数听起来很大但这是总参数量。V4 采用了 MoE混合专家架构每次推理只激活约490亿参数V4-Pro。所以实际推理开销远没有1.6T看起来那么夸张。2. 关于 benchmark 成绩这些数字是官方公布的各家厂商的 benchmark 成绩往往经过精心配比和测试集选择不同模型之间直接对比存在口径差异。参考可以别当成绝对标尺。3. 关于长上下文的真实体验100万 token 窗口是技术突破但实际使用中能放进去和理解得好是两件事。模型在超长上下文中的中间位置往往存在注意力衰减这是 Transformer 架构的特性不是 V4 独有的问题。4. 关于开源的持续性DeepSeek 之前的模型也有开源但社区维护、更新节奏、长期支持等都需要观察。开源模型的价值不只是发布那一刻取决于后续社区生态的跟进。总结DeepSeek V4 是一次实打实的升级——参数规模更大、上下文更长、架构有新意、价格有诚意。对于开源社区来说V4 的发布确实是这个春天值得关注的一件事。但作为从业者我更愿意保持一个客观的态度大模型的能力是真实的进步但落地效果因场景而异是否适合自己还是那句话看任务看场景看成本。参考来源DeepSeek 官方 API 文档platform.deepseek.comDeepSeek 开放平台定价platform.deepseek.com/pricingHuggingFacehuggingface.co/deepseek-ai/DeepSeek-V4-FlashDeepSeek 公众号发布于 2026年4月24日36氪《DeepSeek 正式发布 V4 APIFlash/Pro 双版本齐发百万上下文成标配》2026年4月24日原创内容转载需授权。

3分钟解锁PDF宝藏：Python pdftotext终极文本提取指南

3分钟解锁PDF宝藏：Python pdftotext终极文本提取指南【免费下载链接】pdftotext Simple PDF text extraction 项目地址: https://gitcode.com/gh_mirrors/pd/pdftotext 在日常办公和数据处理中，PDF文档就像一座座信息宝库，但如何快速…...

2026/4/26 20:00:31 阅读更多 →

5个设计标注痛点，Sketch Measure如何帮你节省80%沟通时间？

5个设计标注痛点，Sketch Measure如何帮你节省80%沟通时间？ 【免费下载链接】sketch-measure Make it a fun to create spec for developers and teammates 项目地址: https://gitcode.com/gh_mirrors/sk/sketch-measure 还在为设计稿标注而头疼吗…...

2026/4/26 20:00:18 阅读更多 →

VS Code Copilot Next 配置失效？立即诊断你的自动化工作流：4类典型故障码+实时修复CLI工具（v1.3.0限时开源）

更多请点击： https://intelliparadigm.com 第一章：VS Code Copilot Next 自动化工作流配置失效的典型现象与认知重构常见失效表征当 VS Code Copilot Next 的自动化工作流突然中断时，用户常误判为网络或插件崩溃，实则多源于配…...

2026/4/26 19:55:56 阅读更多 →

AI智能体工作流编排：从单体架构到流水线协作的工程实践

1. 项目概述：当AI智能体学会“流水线”协作最近在探索AI智能体（Agent）的落地应用时，我遇到了一个非常有意思的项目：coleam00/ottomator-agents。这个名字本身就充满了想象力——“Ottomator”，听起来像是“…...

2026/4/26 0:13:33 阅读更多 →

ChatGPT翻译能力解析与实战技巧

1. ChatGPT翻译能力深度解析作为一名长期从事语言技术研究的从业者，我最近系统测试了ChatGPT在多语言翻译场景下的实际表现。与传统的机器翻译工具相比，ChatGPT展现出几个独特优势：首先，它的上下文理解能力远超传统翻译引擎。当处…...

2026/4/26 0:13:35 阅读更多 →

2026届毕业生推荐的十大降AI率助手实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在内容生产这个过程当中，要降低AIGC也就是人工智能生成内容所占的比例&#xff…...

2026/4/26 0:15:22 阅读更多 →