存储器技术详解:DRAM、NAND Flash、HBM一篇文章看懂
一、引言数据的仓库芯片的另一半存储器Memory和逻辑芯片共同构成半导体产业的两大支柱。如果说CPU/GPU是计算的大脑那存储器就是记忆的仓库。没有存储器再强的算力也无处施展——因为所有的数据都必须先记住才能被计算。笔者在存储芯片fab工作期间参与过DRAM和NAND Flash的制造工艺优化深知存储器技术的复杂性。存储器看似只是存数据但背后涉及量子力学浮栅存储原理、热力学CVD沉积、流体力学电镀填充、统计学良率工程等多个学科的深度交叉。本文将系统梳理三大主流存储技术DRAM、NAND Flash、HBM的原理、架构和市场格局帮你建立完整的存储器知识体系。 图1 存储器技术分类体系与核心参数对比如上图所示存储器可分为易失性Volatile和非易失性Non-Volatile两大类。易失性存储器如DRAM在断电后数据丢失但读写速度极快非易失性存储器如NAND Flash断电后数据保留但读写速度相对较慢。不同应用场景对速度、功耗、成本的权衡催生了多样化的存储技术路线。二、DRAM计算机系统的内存支柱DRAMDynamic Random Access Memory动态随机存取存储器是目前计算机系统中最主要的内存芯片。从智能手机到服务器DRAM承担着所有运行时数据的存储任务。与SRAM相比DRAM的存储密度更高、成本更低是大容量内存的首选技术。2.1 DRAM的工作原理1T1C结构DRAM的核心存储单元是1T1C结构——一个晶体管Transistor一个电容Capacitor。电容负责存储电荷有电荷代表1无电荷代表0。晶体管作为开关控制对电容的读写操作。写入WriteWord Line拉高 - 晶体管导通 - Bit Line设定电压 - 电容充电/放电 - Word Line拉低数据被记住。读取ReadWord Line拉高 - 晶体管导通 - 电容与Bit Line共享电荷 - Bit Line电压微小变化~200mV被Sense Amplifier放大检测 - 数据被读出。关键点读取操作是破坏性的——每次读出后必须立即重新写入Restore这就是DRAM需要不断刷新的原因。2.2 刷新Refresh与动态特性DRAM之所以叫动态RAM是因为电容存在漏电现象——即使不加任何操作存储的电荷也会通过晶体管漏极慢慢消散。因此DRAM必须周期性刷新Refresh通常每64ms需要刷新一次整个阵列。刷新带来的问题刷新期间DRAM无法处理正常读写请求影响带宽刷新频率随着工艺微缩电容面积减小而增加制程越先进漏电越严重刷新越频繁DDR5时代引入了温度补偿自动刷新TCAR机制在低温区域减少刷新频率以节省功耗2.3 DDR技术演进从SDRAM到DDR5DDR12000起步DDR在时钟的上升沿和下降沿都传输数据实现了两倍的数据速率。DDR1采用2.5V供电184引脚Prefetch2n速率上限约400MT/s是DRAM技术的里程碑式突破。DDR22003降功耗DDR2电压降至1.8V预取深度增至4n速率上限约800MT/s相比DDR1降低约40%功耗。引入了片上终结电阻ODT改善信号完整性。DDR32007高性能DDR3电压降至1.5V预取8n速率上限约2133MT/s。引入了自动刷新替代ASR和更先进的功耗管理功能广泛应用于2007-2018年的主流计算平台。DDR42012现代主流DDR4电压降至1.2V预取8n速率上限约3200MT/s。Bank Group架构2/4个Bank Group并行操作大幅提升有效带宽。最大单条容量从4Gb提升到16Gb以上支撑了云计算时代的大内存需求。DDR52020新一代标准DDR5电压降至1.1V预取16n速率上限达8400MT/s。革命性的双通道DIMM架构内部划分为两个独立40bit通道片上PMIC电源管理IC集成到内存条上ECC纠错功能增强。DDR5的带宽是DDR4的约2倍目前正在快速取代DDR4成为市场主流。2.4 LPDDR移动端的低功耗之王LPDDRLow Power DDR是面向移动设备智能手机、平板、可穿戴设备的低功耗专用DRAM。相比桌面/服务器DDRLPDDR做了大量功耗优化更低的VDDQLPDDR5的VDDQ降至0.5V而DDR5为0.95V时钟门控空闲时关闭时钟节省功耗深度睡眠模式自刷新时功耗降至微瓦级别可变带宽根据实际负载动态调整带宽LPDDR发展路线LPDDR12001- LPDDR2 - LPDDR3 - LPDDR42014- LPDDR4X - LPDDR52020- LPDDR5X2022- LPDDR5T2024。LPDDR5X的峰值速率已达8533MT/s与桌面DDR5旗舰相当。2.5 市场格局韩美双雄争霸全球DRAM市场呈现高度集中的格局三星电子全球DRAM份额约40%技术最先进率先量产1alpha/1beta nm产能最大SK海力士份额约30%HBM领域绝对霸主供应英伟达H100/H200DDR5技术领先美光科技份额约25%美国唯一DRAM厂商1beta nm制程量产南亚科技台湾份额约3%专注于利基市场和成熟制程长鑫存储CXMT份额小于2%国内DRAM希望之星19nm DDR4已量产17nm在研三、NAND Flash固态存储的基石NAND Flash是目前最主流的非易失性存储技术广泛应用于SSD、UFS、eMMC、SD卡、U盘等各类存储设备。与DRAM相比NAND Flash具有非易失性、密度高、成本低、功耗低等优势是海量数据存储的核心载体。3.1 NAND Flash的存储原理电荷囚禁NAND Flash的核心存储单元是浮栅Floating Gate或电荷陷阱Charge Trap结构。浮栅是一种被绝缘氧化物ONOOxide-Nitride-Oxide完全包裹的多晶硅层可以囚禁电子。向浮栅注入电子通过FN隧穿效应即可改变晶体管的阈值电压Vt代表编程状态移除浮栅电子则代表擦除状态。NAND Flash基本操作读取Read在目标Word Line施加中间电平电压测量Bit Line电流。若存储节点有电子Vt高晶体管截止Bit Line维持高电平 0若存储节点无电子Vt低晶体管导通Bit Line被拉低 1。编程Program目标Cell的Word Line施加高电压~20V电子通过FN隧穿效应注入浮栅。擦除Erase目标Block的所有Word Line接地P-well施加高电压电子从浮栅隧穿回衬底。NAND Flash以Block为最小擦除单位通常4-16MB以Page为最小读写单位通常16-24KB。这一特性决定了NAND不能像DRAM那样随机读写必须配合Flash Translation LayerFTL做地址映射和垃圾回收。3.2 从SLC到QLC比特密度倍增之路NAND Flash根据每个存储单元存储的bit数可分为SLC、MLC、TLC、QLC、PLC等多个层级 图2 NAND Flash技术演进路线图2000-2024从平面微缩到3D堆叠SLCSingle-Level Cell1bit/cellSLC每个存储单元只存储1bit信息只有0和1两种阈值电压分布状态。SLC的优点是速度快读约25微秒写约300微秒、寿命长约10万次擦写、可靠性高缺点是密度低、成本高。SLC目前主要用于企业级SSD、高可靠工控设备等对寿命要求极高的场景。MLCMulti-Level Cell2bit/cellMLC将单个存储单元的阈值电压细分为4个电平存储2bit信息。相比SLCMLC的存储密度翻倍成本降低约30-40%但读写速度和寿命约1万次均有所下降。MLC在2015年前后逐渐被TLC取代。TLCTriple-Level Cell3bit/cellTLC将阈值电压细分为8个电平存储3bit信息。TLC于2012-2016年间大规模量产成为消费级SSD的主流选择。TLC的读写速度较MLC进一步降低写入寿命约3000次但成本大幅下降存储密度是SLC的3倍。目前主流消费级SSD几乎全部采用TLC 3D V-NAND。QLCQuad-Level Cell4bit/cellQLC将阈值电压细分为16个电平存储4bit信息。QLC的存储密度是SLC的4倍但写入速度最慢写寿命约1000次误码率更高。QLC在2019年后大规模量产主要面向大容量SSD大于2TB和数据仓库等写少读多的应用场景。随着AI训练数据量的爆发QLC SSD在大数据分析场景中的应用快速增长。3.3 从2D到3D范式转换的关键一跳2010年后NAND Flash面临严峻的物理瓶颈在2D平面时代随着制程微缩到15nm以下存储单元之间的干扰Cell-to-Cell Interference、浮栅耦合Floating Gate Coupling、数据保持Data Retention等问题急剧恶化2D NAND的微缩之路在15-16nm触顶。2014年三星率先推出3D V-NANDVertical NAND将存储单元垂直堆叠在硅衬底之上从根本上改变了NAND的技术路线。相比2D NAND3D V-NAND的优势突破平面微缩限制通过增加层数从32层到300层在不使用先进光刻的情况下大幅提升存储密度更好的电学性能存储单元间距更大Cell-to-Cell干扰更小可使用更厚实的隧道氧化层寿命和可靠性更好成本优势3D NAND可以在较成熟大于20nm的制程节点上制造但实现等同于甚至超过先进2D节点的存储密度3D NAND的制造工艺极为复杂需要在垂直方向上沉积数十层材料poly-Si存储层、ONO绝缘层、WL金属层然后通过高深宽比大于60:1的硅通孔TSV刻蚀打通所有层。这对刻蚀设备需要高深宽比ICP刻蚀机、沉积设备均匀性要求极高的ALD/CVD和材料都提出了极高的要求。3.4 市场格局六强争霸国内崛起全球NAND Flash市场主要玩家三星全球份额约35%3D NAND技术的开创者V8236层、V9290层领先量产SK海力士含Solidigm份额约25%收购Intel NAND业务后Solidigm在QLC和企业级SSD领域有独特优势铠侠/西部数据Kioxia/WD份额约20%BiCS Flash架构独特Fab产能分布在日本四日市和北上市美光份额约12%176层3D NAND量产232层正在放量长江存储YMTC份额约5%国内NAND Flash的希望采用Xtacking架构晶栈键合232层3D NAND已量产受美国出口管制影响扩产受阻旺宏Macronix台湾专注Nor Flash和SLC NAND利基市场玩家四、HBM高带宽内存AI时代的显存革命HBMHigh Bandwidth Memory高带宽内存是专为高性能计算和AI工作负载设计的DRAM堆叠技术。HBM通过3D堆叠和2.5D硅中介层Si Interposer互连实现了远超传统GDDR和DDR的带宽和能效比是当前AI GPU和超级计算机的核心内存解决方案。4.1 HBM的工作原理垂直堆叠的带宽革命HBM的核心创新在于3D DRAM堆叠架构。一个完整的HBM堆叠包括DRAM晶粒DRAM Die每颗HBM包含4-12颗堆叠的DRAM晶粒每颗晶粒与标准DRAM类似但经过3D封装优化厚度大幅减薄50-100微米以容纳在标准封装高度内TSVThrough-Silicon Via硅通孔贯穿整个DRAM晶粒的垂直互连通道用于将每层晶粒的信号连接到基板上实现晶粒间的垂直通信2.5D硅中介层Silicon Interposer一块含有密集走线的无源硅芯片水平连接GPU和HBM堆叠提供超宽总线接口HBM1256bitHBM21024bitHBM32048bitHBM堆叠封装HBM3E的单颗堆叠高度约720微米内部包含12-16层DRAM晶粒和1层逻辑控制晶粒Base Die以HBM2为例单颗HBM2提供256bit的数据总线宽度典型速率2.4Gbps/pin但HBM2的总带宽可达307 GB/s远超GDDR6的约192 GB/s。HBM3更是将总线宽度扩展到2048bitHBM3E单颗带宽突破1.2 TB/s。4.2 HBM的技术代际演进HBM12013首次在AMD Fiji GPU上商用4通道x128bit512bit8层DRAM堆叠峰值带宽128 GB/s容量4GB。HBM22016NVIDIA V100 GPU采用1024bit总线8层堆叠带宽900 GB/s容量8GB。HBM2E2020速率从2.4Gbps提升到3.2Gbps带宽约1.64 TB/s容量16-32GB。HBM32022SK海力士率先量产2048bit总线12层堆叠6.4Gbps/pin带宽大于1 TB/s容量24-36GB。HBM3E2024SK海力士和三星均已量产HBM3E12-16层堆叠9.6Gbps/pin单颗容量36-64GBNVIDIA H200/H100 SXM5采用。HBM42026规划SK海力士透露正在研发下一代HBM4预计进一步扩大总线宽度可能采用混合键合Hybrid Bonding替代微凸点micro-bump以进一步降低功耗和增加堆叠层数。4.3 HBM的市场格局SK海力士独领风骚目前HBM市场呈现SK海力士一家独大的格局SK海力士占据HBM市场约60-70%的份额是英伟达H100/H200/H100 SXM5的独家HBM供应商在HBM3E技术上处于领先地位2024年HBM营收占比已超过30%三星HBM3E在2024年通过英伟达验证成为HBM3E第二供应商但在良率和产能上仍落后于SK海力士美光HBM3E也已通过验证但受产能限制目前主要供应给AMD和部分数据中心客户国产HBM仍处于0-1阶段长鑫存储和福建晋华在研发HBM相关技术距离量产仍有5-10年差距五、存储单元结构深度对比5.1 三种主流存储单元结构DRAM 1T1C电容存储电荷泄露DRAM单元使用MOS电容存储电荷。优点读写速度极快纳秒级别、结构简单、密度高。缺点电容面积随工艺微缩而减小漏电加剧需要频繁刷新。1T1C的缩放瓶颈在于电容的等效氧化层厚度EOT和深宽比。NAND Flash浮栅Floating Gate结构浮栅是一种被绝缘层完全包裹的多晶硅岛电子被囚禁在浮栅中断电后不会泄露。优点非易失性数据保持10年以上。缺点浮栅之间存在耦合干扰工艺复杂度高。浮栅结构已逐步被电荷陷阱Charge Trap结构取代。NAND Flash电荷陷阱Charge Trap结构电荷陷阱使用SiN氮化硅层代替多晶硅浮栅电子被陷阱捕获在氮化硅的晶格缺陷中。优点单元面积更小Cell-to-Cell干扰更小因为氮化硅是连续的绝缘层。三星的V-NAND全部采用电荷陷阱结构。5.2 新型存储技术后DRAM/NAND时代的新星新型存储Emerging Memories是近年来业界积极布局的方向PCM相变存储器利用硫族化合物的晶态/非晶态相变存储数据Intel Optane DIMM即是PCM商用化产品已停产ReRAM阻变存储器通过金属氧化物薄膜的电阻切换存储数据适用于存储级内存SCMMRAM磁阻存储器利用磁性隧道结MTJ的磁化方向存储数据读写速度纳秒级非易失适合航空航天和物联网FeRAM铁电存储器利用铁电材料的极化方向存储数据读写速度快擦写次数高主要用于智能卡和医疗设备六、市场格局与周期波动全球存储器市场在2021-2023年经历了一轮剧烈的周期波动。2021年受益于疫情带动的PC和服务器需求存储器厂商赚得盆满钵满2022-2023年则急转直下DRAM和NAND Flash价格腰斩三星、SK海力士、美光均出现巨额亏损。2024年随着AI服务器需求爆发HBM和高端服务器DRAM出现严重短缺存储器市场再次进入上升周期。据TrendForce预测2024年全球DRAM市场规模约750亿美元NAND Flash市场规模约550亿美元合计超过1300亿美元。国内存储器产业的发展长江存储YMTC2016年成立2019年量产32层3D NAND2020年量产64层2022年量产232层Xtacking 3D NAND。受美国出口管制影响2022年10月实体清单先进设备进口受阻扩产计划受到严重限制。但232层量产本身已是中国半导体产业的历史性突破长鑫存储CXMT2016年成立2019年量产19nm DDR42022年量产17nm DDR5产能约7万片/月。主要面向国内服务器和PC市场正在积极扩产中福建晋华JHICC主要从事DRAM研发和制造但受美国出口管制影响设备和材料供应受限进展较慢七、趋势与展望7.1 AI驱动存储技术加速迭代ChatGPT引发的AI浪潮对存储技术提出了前所未有的挑战HBM需求井喷英伟达H100/H200/H100 SXM5等AI GPU需要大量HBM作为显存SK海力士HBM订单已排到2025年以后CXL互联CXLCompute Express Link是一种高速CPU-GPU-内存互连协议可以实现内存池化Memory Pooling解决AI训练中的内存带宽和容量瓶颈NAND需求分化AI训练数据的高吞吐量读写需求推动企业级QLC SSD快速普及同时推动3D NAND层数持续增加300层Compute Storage在存储节点做近数据计算Near-Data Computing减少数据搬运是存储架构演进的新方向7.2 国产存储器的机遇与挑战存储器是半导体产业中中国与全球先进水平差距最小之一的赛道。长江存储的232层量产和长鑫存储的DDR5布局证明了中国存储器产业的快速追赶能力。但同时也要清醒认识到HBM差距巨大HBM涉及3D DRAM堆叠和先进封装国产化需要10年以上的持续投入设备受制于人美国将长江存储列入实体清单后关键设备商无法提供技术支持先进产能扩张受阻专利壁垒存储器领域专利密集Samsung、SK Hynix、Micron拥有大量基础专利国产厂商面临专利诉讼风险八、总结存储器是半导体产业中和每个人都密切相关的细分领域。本文系统梳理了DRAM、NAND Flash和HBM三大主流存储技术的原理、演进和市场格局。核心要点回顾DRAM以1T1C结构存储数据需要周期性刷新。DDR技术从DDR1演进到DDR5带宽提升50倍以上。LPDDR面向移动端低功耗场景。SK海力士和三星主导市场国产长鑫正在追赶NAND Flash以浮栅/电荷陷阱存储数据非易失。平面时代从SLC到QLC不断提升密度2014年后进入3D V-NAND时代通过垂直堆叠突破摩尔定律极限。长江存储232层Xtacking是国产里程碑HBM以3D DRAM堆叠2.5D Interposer实现超高带宽是AI GPU的核心显存。SK海力士一家独大供应英伟达。国产HBM仍处于早期阶段行业格局韩美主导三星/SK海力士/美光国内长江存储和长鑫存储在NAND和DRAM领域取得突破但HBM等先进领域差距仍大存储器行业是一个典型的强者恒强市场技术壁垒和资本壁垒极高。对于工程师而言深入理解存储单元物理、封装工艺和系统架构将在AI时代获得独特的竞争优势。