甲骨文拿下OpenAI 3000亿美元推理订单云厂商终结20年降价史。算力世界的重心正在发生历史性偏移——从训练模型转向服务应用。这场变革将如何重塑云架构、硬件生态与定价逻辑2026年一个标志性事件震动了整个云计算行业甲骨文与OpenAI签署了一份为期5年、总额高达3000亿美元的推理算力订单。与此同时长期奉行“只降不升”的云计算定价规则被打破全球主要云厂商掀起了十年来首轮涨价潮。这两则新闻共同指向一个深层趋势AI算力的需求重心正从模型训练Training转向实际推理Inference。如果说过去两年的主题是“如何训练出更大的模型”那么未来十年的主题将是“如何以更低的成本、更低的延迟、更高的吞吐量服务海量推理请求”。本文将深入对比推理与训练对计算、内存、网络和延迟的差异化需求剖析专用推理芯片、近存计算和云原生调度体系的技术演进并解读定价模式转变背后的供需关系、能源成本与稀缺性经济学。一、推理 vs. 训练两套完全不同的算力“食谱”训练和推理虽然都使用GPU/TPU但它们对硬件和系统的需求截然不同如同法餐大厨与快餐连锁店的厨房——一个追求极致精度和创造力另一个追求速度、稳定性和单位成本。1.1 计算特性批量 vs. 单条训练通常是高吞吐、大批量。训练过程中数据以大批次large batch喂入模型矩阵运算可以充分利用GPU的并行能力。训练任务可以运行数小时甚至数周对单次前向传播的延迟不敏感但需要极高的浮点运算总量FLOPs。推理以低延迟、小批量或单条请求为主。用户发出一个查询期望在毫秒级返回。推理请求的到达是随机的、离散的无法像训练那样提前打包成大批量。这导致GPU的利用率往往不高——因为等待凑够一个大批次会增加延迟。技术影响训练倾向于选择高算力TFLOPS的芯片而推理更看重低延迟和首个token生成时间TTFT。这也催生了专门优化的推理芯片它们牺牲部分算力峰值来换取更稳定的响应时间。1.2 内存特性带宽 vs. 容量训练需要极大的内存容量来存储模型参数、梯度、优化器状态例如Adam优化器需要存储一阶和二阶动量。一个1750亿参数的模型用FP16训练仅参数就占用350GB加上梯度和优化器状态轻松超过1TB显存。因此训练芯片如NVIDIA H100强调高带宽内存HBM的大容量80GB-144GB每卡。推理更看重内存带宽而非容量。推理只需要存储模型参数和KV Cache不需要梯度。对于生成式任务内存带宽成为主要瓶颈——因为每生成一个token需要将整个模型参数从显存读取一次。如果内存带宽是2TB/s模型大小350GB那么理论最大生成速度仅为5-6 tokens/s。因此推理芯片极度追求每字节功耗更低和带宽密度更高。1.3 网络特性All-to-All vs. 路由稀疏训练大规模分布式训练需要极高的网络带宽和极低延迟的通信例如NVIDIA NVLink和InfiniBand。梯度同步、All-Reduce操作要求每张卡频繁交换大量数据网络性能直接决定训练效率。推理分布式推理如多卡加载一个模型的通信模式是相对稀疏的。通常只有张量并行tensor parallel需要高带宽而流水线并行pipeline parallel和专家并行expert parallel对网络要求较低。此外推理可以通过模型路由将不同请求分发到不同副本网络压力远小于训练。1.4 延迟敏感性天壤之别训练以小时或天为单位衡量几秒钟的延迟无关紧要。推理以毫秒为单位。研究表明如果搜索结果的响应时间增加100毫秒用户点击率会下降1%如果AI对话的回复延迟超过2秒用户流失率显著上升。总结训练是“马拉松选手”追求总吞吐量推理是“百米短跑运动员”追求爆发速度和稳定性。两套需求无法用同一套基础设施完美满足——这正是算力格局变化的根本驱动力。二、新硬件与新架构为推理而生的“特长生”面对推理需求的爆发产业界不再满足于用训练芯片“降级”跑推理。一批专用推理芯片和新型系统架构正在涌现。2.1 专用推理芯片Groq、Cerebras的“反潮流”设计Groq其芯片彻底抛弃了HBM采用SRAM静态随机存取存储器作为片上存储。SRAM速度极快数十纳秒延迟但容量小、成本高。Groq的解决方案是将模型参数分布在数百个芯片上每个芯片只存一小部分通过高速网络串联。推理时数据像流水线一样在芯片间传递不需要频繁从片外DRAM读取。结果Groq芯片的延迟极低LLaMA-70B模型可做到200 tokens/s以上但系统成本和功耗较高。Cerebras采用晶圆级集成将整个晶圆通常切出数百颗芯片做成一颗巨大的“芯片”。这颗巨无霸拥有海量的片上SRAM和计算单元可以完整存储一个中等规模的模型彻底消除了片外内存访问。优点是内存带宽惊人数十PB/s缺点是良率低、价格昂贵。这两类芯片的共同逻辑是用近存计算近数据计算或存内计算解决内存带宽瓶颈而不是盲目堆砌TFLOPS。2.2 近存计算让数据“少走路”传统冯·诺依曼架构中CPU/GPU与内存之间的“存储墙”是主要效率瓶颈。近存计算Near-Memory Computing将计算单元放置到内存芯片附近甚至集成在内存芯片内部。HBM-PIMProcessing-in-Memory三星等厂商在HBM堆叠中集成了简单的计算单元可以在数据“路过”时完成部分矩阵运算减少数据搬移。对于推理中的全连接层这种技术能显著降低功耗和延迟。数字存内计算使用新型存储介质如RRAM、MRAM直接进行模拟域或数字域的矩阵向量乘法将计算融合在存储阵列中。虽然目前成熟度较低但被视为推理芯片的终极方案之一。2.3 云原生推理调度系统从“独占卡”到“混部”即便有了专用芯片如何高效调度海量推理请求也是一门大学问。传统的训练集群中一个任务独占多张卡运行数天。推理场景则完全不同请求动态到达模型大小不一延迟要求各异。新型调度系统的关键特性请求级批处理动态收集短时间窗口内的请求组成一个动态批次dynamic batching在延迟和吞吐量之间取得平衡。系统需要预测等待时间决定是否立即处理或“再等几个”。模型分片与自动路由大模型无法单卡容纳时自动将其分片到多个设备并建立路由表将请求只路由到必要分片例如MoE模型只激活专家所在设备。弹性伸缩根据实时请求量在几秒钟内启动或关闭推理实例同时预热的模型副本加速冷启动。开源案例NVIDIA的Triton Inference Server和vLLM是目前主流的推理调度系统。它们共同的特点是高度优化的KV Cache管理、PagedAttention等内存节约技术以及对各种硬件后端的统一抽象。三、定价模式之变为什么20年的降价史被打破云计算的“黄金法则”曾是计算、存储、网络带宽的成本会持续下降因此云厂商每隔一段时间就会降价以占领市场。但这个持续了近20年的规律在2026年被打破了——AWS、微软Azure、谷歌云等主要厂商陆续上调了部分推理服务的价格。3.1 供需关系逆转算力不再是“买方市场”过去两年全球AI算力投资疯狂增长但大部分集中在训练集群。随着AI应用井喷推理需求以远超预期的速度攀升而推理专用基础设施的建设需要时间数据中心审批、芯片制造、部署调优均以季度或年为单位。短期来看推理算力供不应求。甲骨文愿意以3000亿美元锁定OpenAI未来5年的推理容量本身就是供给紧张的最佳证明——如果市场上随时能买到便宜的推理算力谁愿意提前5年预付巨款3.2 能源成本算力的“隐形税”训练和推理都是能耗大户。但训练可以放在电价便宜的地区如美国德州、中国内蒙而推理需要就近服务用户无法完全“追着电费跑”。为了满足低延迟要求云厂商必须在城市周边部署边缘节点这些地区电价更高制冷约束更严。此外全球能源价格持续波动加上各国碳税政策落地算力的真实成本正在上升。云厂商无法继续靠规模效应完全消化这部分成本。3.3 “推理作为稀缺资源”的经济学训练是资本支出密集建造集群但一旦建成每次训练的边际成本相对固定。推理则是运营支出密集每个请求都有直接的电费、硬件损耗和运维成本。在供不应求的阶段定价权自然向卖方倾斜。而且推理服务具有时效性和不可存储性——一个用户请求必须在几毫秒内处理不能等算力便宜了再执行。这种特性使得动态定价峰谷价差和优先级定价加钱买优先响应成为可能。新商业模型预留实例类似甲骨文与OpenAI的长期合同用户承诺长期购买量换取折扣。现货推理利用闲置算力以低价处理非实时请求如离线报表生成。优先级加速基础级免费但限速付费用户获得专属通道和更低延迟。四、中间件的机会推理调度需要“智能大脑”从训练到推理的重心转移不仅影响芯片和云架构也为中间件层打开了新的空间。推理场景的复杂性与多样性恰好是企业中间件的擅长领域。一个典型的推理服务链包括请求接入 → 模型路由 → 动态批处理 → 硬件适配 → 结果后处理 → 返回。不同环节需要不同的优化策略而市面上缺乏一个统一的、厂商中立的推理编排平台。金蝶天燕在传统企业中间件领域应用服务器、消息中间件、API网关积累深厚。在AI推理时代这些能力可以自然延伸为推理网关作为统一入口负责认证、限流、模型路由根据请求内容或用户等级将流量分发到不同模型——轻量版或旗舰版、自研或第三方。推理消息队列对于异步推理任务如视频处理、批量文档分析使用高吞吐消息中间件解耦请求产生和推理消费平滑流量高峰。可观测性中间件收集并聚合分布式推理链路的延迟、错误率和成本数据为调度决策提供实时反馈。此外金蝶天燕可以借鉴其企业服务总线ESB的设计理念构建一个“推理服务总线”帮助企业在多云/混合云环境中统一管理异构推理后端NVIDIA、Groq、Cerebras、甚至国产AI芯片并实现灰度发布、A/B测试和故障转移。这正好弥补了云厂商锁定和开源工具碎片化之间的空白。当然中间件不能替代硬件优化或模型压缩但它可以在应用与算力之间建立一个灵活的适配层——这正是传统中间件的核心价值在AI时代依然适用。五、结论推理优先的时代刚刚开始3000亿美元的订单、20年定价规则的终结这些信号足以让我们确信AI算力的重心已经从训练转向推理。这不是短期波动而是一个长达十年甚至更久的结构性转变。对于架构师而言这意味着需要重新审视基础设施的选择推理任务需要的是低延迟、高内存带宽、弹性调度而非单纯的TFLOPS峰值。专用推理芯片、近存计算和精细化调度系统将成为新的竞争焦点。对于企业和开发者推理成本的上升和定价模式的复杂化要求更精细地权衡质量、延迟与成本。或许未来每个应用都会有一个“推理预算”如同今天的时间预算和内存预算。最后在这个多云、多芯片、多模型的时代一个统一、高效、可观测的中间件层不再是奢侈品而是必需品。金蝶天燕们能否抓住这次架构变革的机遇将在很大程度上决定中国企业在下一代AI基础设施中的竞争力。