1. ISSCC 2021从三篇论文看SoC设计的未来挑战与机遇每年二月的国际固态电路会议ISSCC都是半导体行业的风向标它集中展示了未来一到两年内即将进入我们手机、数据中心和各类智能设备的核心技术。2021年的会议因为疫情转为线上但这丝毫没有削弱其技术的前瞻性。对于像我这样在一线从事芯片设计和系统架构工作超过十年的工程师来说ISSCC的论文从来不只是纸面上的学术探讨它们直接预示着下一代产品将面临的设计挑战和可能采用的解决方案。今年有三篇论文特别引起了我的注意它们分别从三个看似独立、实则紧密相关的维度——智能感知、底层器件和系统功耗管理——勾勒出了未来系统级芯片SoC发展的清晰轮廓。这不仅仅是技术的迭代更是一场关于如何平衡性能、功耗、隐私和制造可行性的系统性思考。2. 智能感知的前沿索尼的堆叠式CMOS图像传感器与边缘AI隐私保护2.1 从“看见”到“理解”边缘AI的必然趋势传统的视觉处理流水线是这样的图像传感器CIS捕获原始光信号经过模数转换后原始图像数据被传输到手机或设备的主应用处理器AP中的图像信号处理器ISP进行降噪、色彩校正等一系列处理最终生成可供显示的图片或视频流。如果需要进行物体识别、人脸检测等AI任务这些处理后的图像数据往往需要再上传到云端服务器由强大的AI模型进行分析。这个链条存在几个明显的痛点延迟、功耗和隐私。延迟自不必说网络传输和云端排队处理的时间在实时应用如AR互动、自动驾驶感知中是致命的。功耗方面高速数据传输和云端庞大的计算本身就是耗电大户。而隐私问题则最为敏感你的原始图像数据在云端被如何处理、存储甚至滥用作为终端用户几乎完全不可控。索尼的这篇论文正是直击这些痛点提出了一种将AI计算能力“前置”到传感器本身的颠覆性方案。2.2 索尼的堆叠式传感器技术细节与设计考量论文标题“A 1/2.3inch 12.3Mpixel with On-Chip 4.97TOPS/W CNN Processor Back-Illuminated Stacked CMOS Image Sensor”信息量巨大。我们来拆解一下1/2.3英寸1230万像素这是一个主流的手机传感器尺寸说明其目标市场明确就是移动设备。背照式堆叠CMOS图像传感器这是索尼的看家技术。背照式BSI将光电二极管上方的金属布线层移到下方提升了进光量和灵敏度。堆叠Stacked技术则更为关键它将像素阵列捕捉光信号和逻辑电路处理信号分别制作在两片晶圆上然后通过硅通孔TSV技术垂直互连。这释放了巨大的设计自由度像素层可以专注于优化感光性能逻辑层则可以集成更复杂、更庞大的数字电路而无需担心挤占感光面积。片上4.97 TOPS/W CNN处理器这是论文的核心创新。TOPS/W每瓦特万亿次操作是衡量AI加速器能效的关键指标。4.97 TOPS/W在2021年的语境下属于非常高的能效水平。这意味着索尼在传感器逻辑层直接集成了一颗专门为卷积神经网络CNN优化的低功耗处理器。设计上的精妙之处在于这颗CNN处理器被设计为直接在传感器内部处理从像素阵列出来的原始或经初步处理的数据。其输出不再是完整的图像而是经过AI分析后的“元数据”或“语义结果”比如“画面中央有一只猫坐标x,y置信度95%”。只有这些轻量级的分析结果会被传输给手机的应用处理器或云端。注意这种设计并非要完全取代手机AP中的ISP。论文中也提到该设备仍处于开发阶段一些传统的ISP功能如复杂的多帧合成、极致的动态范围优化可能仍需AP协助。但它承担了初级的、面向特定AI任务的预处理从根本上改变了数据流。2.3 对SoC设计的深远影响解耦与专业化这项技术对SoC设计者意味着什么我认为是“功能的解耦与硬件的专业化”。以往为了追求极致的拍照和视频体验手机SoC厂商如高通、联发科不得不在其旗舰AP中集成越来越庞大、复杂的ISP模块。高通的骁龙888就配备了三个ISP以支持极高的像素吞吐量和多摄像头并发处理。这消耗了大量的芯片面积Die Area和功耗预算。索尼的方案指出了一个潜在的新方向将一部分特定的、高价值的图像处理功能特别是AI视觉理解从通用的AP中剥离出来下沉到更前端的专用传感器模块中。未来AP中的ISP可能会变得更“轻量化”或更专注于通用性的图像质量增强而场景识别、主体追踪等任务则由传感器端的AI单元实时完成。这带来的好处是多方面的降低AP负载和复杂度为AP腾出了宝贵的芯片面积和功耗空间可以用于强化CPU、GPU或其他专用加速器。实现真正的低功耗常开感知传感器端的AI处理器功耗极低可以长时间处于工作状态实现熄屏显示下的手势识别、注视感知等功能而无需唤醒耗电大户AP。系统级延迟优化感知和决策的路径被缩短响应更快。从供应链角度看这可能会重塑手机厂商与传感器供应商的关系。传感器不再只是一个“ dumb ”的模拟部件而是一个具备智能的“感知子系统”。SoC设计需要更多地考虑与这些智能外设的高效协同接口和协议可能需要新的标准。3. 器件层面的革命三星3nm GAA晶体管与SRAM设计创新3.1 从FinFET到GAA为何必须改变要理解三星这篇SRAM论文的价值必须先搞清楚晶体管技术从FinFET向环绕式栅极GAA过渡的底层逻辑。FinFET技术自22/16nm节点引入以来已经服役了超过五个工艺世代是过去十年先进制程的基石。其核心思想是将扁平的晶体管通道“立起来”形成一个鱼鳍状Fin的三维结构栅极从三面包裹通道从而在更小的尺寸下更好地控制电流的通断抑制短沟道效应。然而随着工艺节点向3nm、2nm迈进FinFET的潜力正在耗尽。主要问题在于静电控制接近极限当Fin的宽度鳍宽不断缩小时栅极对沟道中心的控制力会减弱导致晶体管在关闭状态下的漏电流增加。驱动电流调谐不灵活在FinFET中晶体管的宽度决定驱动电流的关键参数是以单个Fin的宽度为最小单位进行离散增加的。你需要更强的电流那就增加一个Fin。这种离散化的调整方式在追求极致功耗、性能、面积PPA平衡的先进设计尤其是对变异极其敏感的SRAM中显得不够精细。三星的GAA或称MBCFET技术用堆叠的纳米片Nanosheet替代了Fin。栅极材料完全环绕每一个纳米片通道实现了真正的四面包裹。这带来了两大根本性改进更优的静电控制全环绕结构提供了最强的栅极控制能力能更有效地关断晶体管降低漏电。恢复连续宽度调谐纳米片的宽度W和堆叠的数量N可以在制造过程中进行连续或更精细的调整。设计师可以像在古老的平面工艺时代一样通过改变W来连续调整晶体管的驱动强度从而在电路设计中实现更精细的P/N管比例优化这对模拟电路和存储单元设计至关重要。3.2 论文中的SRAM设计技巧ADBL与ACP在先进的工艺节点下SRAM单元是设计难度最高、对工艺波动最敏感的部分之一。它的稳定性直接关系到芯片的良率和最低工作电压。三星的论文“A 3nm Gate-All-Around SRAM Featuring an Adaptive Dual-BL and an Adaptive Cell-Power Assist Circuit”正是展示了如何利用GAA的特性来设计更强大的SRAM。自适应双位线ADBL技术 传统的SRAM单元连接一条位线BL和一条反相位线BLB。在写入操作时需要通过位线对存储节点进行充放电来改变其状态。位线本身存在电阻和电容形成RC延迟。ADBL技术动态地在写入操作期间将一条辅助位线Auxiliary BL与主位线并联。这相当于瞬间增大了位线的“横截面积”降低了有效电阻从而加快了写入速度改善了写入容限。关键在于这个并联开关只在写入时短暂开启在读取操作时断开因此不会影响读取速度或增加额外的静态功耗。自适应单元电源ACP技术 SRAM阵列的电源网络也存在电阻。距离供电点较远的单元其实际得到的电源电压会略有下降IR压降这会影响单元的稳定性尤其是在写入时。ACP技术在存储阵列中分布式地插入了一些额外的头端上拉和脚端下拉开关晶体管。当一个特定的存储单元被选中进行写入时系统会根据该单元的位置智能地开启距离最远的那个电源开关。这样做的目的是为选中的单元提供一条“专线”最大限度地减少电源网络的IR压降对其的影响从而显著提升写入容限。3.3 对SoC性能的直接影响三星通过一个256Mb的测试芯片验证了这些技术。结果显示结合GAA晶体管本身的优势以及ADBL和ACP电路技术SRAM单元的静态噪声容限和写入容限总共提升了230mV。这个数字对SoC设计师来说意义非凡。SRAM在先进SoC尤其是集成了大容量缓存的CPU、GPU和AI加速器中可能占据超过一半的芯片面积。SRAM性能的改善直接意味着更低的运行电压Vmin单元更稳定可以在更低的电压下工作大幅降低芯片的动态功耗和静态功耗。更高的运行频率写入和读取更快有助于提升缓存和片上存储器的带宽。更高的密度和良率稳定的单元设计允许采用更紧凑的布局提高存储密度同时降低对工艺波动的敏感性提升芯片良率。因此三星的这项研究不仅仅是一个工艺展示更是为下一代需要海量片上缓存和高带宽内存访问的AI芯片、高性能处理器铺平了道路。它确保了摩尔定律在器件层面继续向前推进时SoC的基础存储单元不会成为性能瓶颈。4. 系统级功耗管理高通Hexagon DSP的线程级细粒度控制4.1 复杂SoC的功耗困局随着SoC集成度的提高其功耗管理已成为一个极其复杂的系统级工程问题。一颗先进的手机SoC内部可能包含数十亿个晶体管集成了CPU大核/小核集群、GPU、NPU、ISP、DSP、基带等多个功能模块。这些模块在不同工作负载下的功耗差异巨大从几十毫瓦到十几瓦不等。传统的SoC级功耗管理如动态电压频率调整DVFS往往是“粗放式”的。例如当温度传感器检测到芯片某处温度过高或电源管理芯片PMIC检测到电流需求逼近极限时系统可能会采取全局节流Global Throttling策略即同时降低所有核心的频率和电压。这虽然能快速将功耗和温度拉回安全区但代价是“误伤”了许多当前并不需要被限制的、低功耗的任务导致整体性能不必要的下降。高通这篇论文“Thread-Level Power Management for a Current- and Temperature-Limiting System in a 7nm Hexagon Processor”所针对的正是其Hexagon计算DSPcDSP中这种管理粒度不够细的问题。Hexagon DSP是高通骁龙平台中处理音频、传感器融合、计算机视觉等低功耗、高能效任务的核心其本身内部也支持多线程并行。4.2 线程级功耗管理的实现思路论文的核心思想是将功耗管理的粒度从整个芯片或整个DSP核心细化到单个硬件线程级别。其系统需要实时监控两个关键指标电流防止瞬间电流过大导致PMIC或电池输出电压骤降称为“brownout”掉电这会引起电路逻辑错误甚至宕机。温度防止局部热点温度超过硅芯片的可靠工作范围。当监控电路预测到电流或温度即将超过预设的安全阈值时传统的全局节流会“一刀切”。而高通的线程级管理方案则执行以下步骤线程行为分析与分类系统持续分析各个线程的功耗特征区分出“高功耗线程”可能正在执行复杂的向量运算和“低功耗线程”可能在进行简单的标量处理或处于空闲轮询状态。精准干预当需要限流或降温时管理单元优先且更大幅度地对高功耗线程进行降频或暂停而对低功耗线程的影响则降到最低甚至不影响。动态调整这种干预是动态和自适应的随着线程工作负载的变化而实时调整策略。4.3 实测收益与设计启示根据论文数据相比全局节流这种线程级细粒度管理能为低功耗线程带来高达35%的性能提升。对于高功耗线程由于它们本身就是主要的“发热源”限制不可避免因此提升不明显。但综合所有类型的DSP操作平均性能收益达到了11%。这11%的平均性能提升在能效比竞争白热化的移动领域是一个巨大的优势。它意味着更持久的峰值性能在玩大型游戏或进行AI计算时系统可以更长时间地维持高频率而不会因为个别模块过热而提前触发降频。更佳的用户体验后台的音频处理、语音唤醒等低功耗任务不会因为前台应用的高负载而被“卡顿”。更高的系统可靠性通过预防brownout和过热提升了芯片长期工作的稳定性。这项研究揭示了未来SoC功耗管理的一个清晰趋势从集中式、粗放式的管理走向分布式、细粒度的协同管理。这需要在架构设计之初就为每个重要的计算单元甚至子单元集成高精度的传感器和快速响应的本地控制逻辑并设计高效的跨单元协调通信机制。这不仅是电路设计挑战更是软硬件协同设计的挑战。5. 三篇论文的交叉点与未来SoC设计范式单独看这三篇论文每一篇都在各自的领域传感器、器件、电源管理做出了扎实的推进。但将它们放在一起审视我们可以清晰地看到一条贯穿未来SoC设计的逻辑主线在物理极限和功耗墙的约束下通过架构创新和跨层级优化实现计算效率的极致提升。感知与计算的融合索尼将AI计算前移到传感器减少了不必要的数据移动“数据搬运功耗”远大于“计算功耗”在提升隐私和实时性的同时也缓解了核心SoC的数据吞吐压力和计算负载。这是从系统架构层面进行的“减负”。器件与电路的协同三星利用GAA晶体管提供的设计灵活性创新SRAM电路设计直接从物理层面提升了基础存储单元的能效和稳定性。这为SoC的“性能引擎”大容量缓存提供了更强大的“心脏”是从底层器件和电路层面夯实了基础。全局与局部的平衡高通通过极细粒度的功耗管理在满足系统安全约束电流、温度的前提下最大化每一个计算单元、每一个线程的效用。这是从系统运行和调度层面进行的“精打细算”。未来的SoC设计师不能再将自己局限于某个单一的层级。你需要理解传感器输出的数据特性需要预判新型器件带来的电路设计机遇与挑战更需要从系统全局视角去统筹功耗、性能和热行为。设计一个SoC越来越像是在指挥一个高度专业化、紧密协同的乐团每个部分感知、存储、计算、控制都需要在精确的节拍下发挥出最佳效能。ISSCC 2021的这三篇论文恰好为我们展示了这个乐团中几位关键“乐手”的最新演奏技巧。作为工程师我们的任务就是学会这些新技巧并将它们和谐地融入下一场更宏伟的性能交响曲中。