小米 MiMo-V2.5系列API永久降价的技术分析（二）

张

张建站

2026/6/10 19:38:06

10分钟阅读

1:7 Full:SWA相对激进稀疏比的混合注意力设计用约 15% 的头负责长距离的信息召回召回头注重Full Attention 就能维持模型的长程理解能力约 85% 的注意力头天然只关注局部信息流式头追求极致推理效率。架构创新1:7 Full:SWA稀疏比的混合注意力设计MiMo-V2.5-Pro最核心的创新在于其Hybrid SWAMoE多模态的复合架构特别是采用极致的1:7 Full:SWA稀疏比设计。这一设计是实现推理成本大幅下降的基石。这个是一个比较激进的比例也有可能是小米初步验证过的高性价比方案行业里面 3:1 或 1:3 是兼顾性能与效率的稳妥选择1. 混合注意力机制的原理与优势传统全注意力架构的计算复杂度为O(n²)其中n为序列长度。当处理百万级Token的长上下文时这种平方级复杂度会导致显存和计算资源的指数级增长使得API成本居高不下。小米的Hybrid SWA架构通过混合使用局部滑动窗口注意力(Sliding Window Attention, SWA)和全局注意力(Global Attention, GA)将计算复杂度从O(n²)降至接近O(w*n)。具体而言全局注意力(GA)层保留完整上下文的注意力计算适合需要全局依赖理解的关键层如输入层和输出层。滑动窗口注意力(SWA)层仅关注最近的w个Token小米设置为128 Token计算复杂度为O(n×w)。Sliding Window Attention 的优缺点说明优点计算复杂度降低从 ( O(n^2) ) 降至 ( O(n⋅w) )。可扩展到长序列支持 8K-16K tokens 甚至更长。适用于文档级任务如长文摘要、法律分析、医疗 NLP 任务。缺点不能捕捉远距离依赖只能处理窗口范围内的 token 交互。需要全局注意力补充必须结合 Global Attention 来补充远程信息Sliding Window Attention 解决了 Transformer 计算复杂度随序列长度二次增长的问题。通过限制每个 token 只关注局部窗口内的 token使得计算复杂度降低为 ( O(n⋅w) )。适用于长文本处理并可结合 Global Attention 进一步提升模型性能。这是 Transformer 在长文本任务上的关键优化方案之一MiMo-V2.5-Pro的70层Transformer中仅10层使用GA其余60层采用SWA形成了1:7的稀疏比。这种设计使得其prefill计算量首次上下文计算仅相当于一个10层的GA模型而实际层数却达到70层显著提升了模型容量与计算效率的平衡。2. 计算量的阶跃式下降通过Hybrid SWA架构MiMo-V2.5-Pro实现了计算量的显著下降计算阶段传统全GA架构MiMo-V2.5-Pro的Hybrid SWA架构计算量降低比例Prefill阶段70层 × O(n²)10层 × O(n²) 60层 × O(n×128)约85-90%decode阶段每层O(n²)每层O(n) SWA层O(128)约90-95%在prefill阶段70层模型的计算量主要由10层GA贡献而60层SWA的计算量几乎可忽略不计在decode阶段每一步生成新Token时所有层的计算量都从O(n²)降至O(n)实现了计算效率的质变。这种架构设计使MiMo-V2.5-Pro的原始推理成本远低于行业平均水平为后续的API大幅降价奠定了基础。罗福莉表示“此次价格调整只是我们决定把这些结构性成本优势直接让利给开发者。”全链路优化突破重构推理系统单纯依靠架构创新无法完全释放MiMo-V2.5-Pro的成本潜力。小米技术团队对推理系统进行了全链路重构实现了五大核心技术突破将Hybrid SWA的理论优势转化为实际的商业价值。1. KVCache双池分治存储效率提升7倍问题传统框架对SWA的支持存在缺陷实质上仍以存储完整KVCache的代价兼容SWA模式导致理论收益难以兑现。解决方案小米设计了KVCache双池分治架构将存储分为FullKVPool与SWAKVPoolFullKVPool按需增长、长期保存存储GA层的完整KV数据。SWAKVPool采用环形缓冲区设计严格按窗口大小配置容量实现O(w)存储约束。效果整体KVCache存储需求降至全GA方案的约1/7在长序列场景下如1M上下文存储效率提升约7倍与传统单池方案相比相同硬件条件下可处理的并发请求量提升5-7倍2. SWA-aware前缀树命中率提升至93%问题传统前缀树在SWA模式下容易出现伪命中问题。当滑动窗口移动时即使大部分前缀相同但由于窗口边界变化传统前缀树会判定为不命中导致缓存利用率低下。解决方案引入窗口安全长度匹配规则确保SWA模式下前缀复用的正确性优化淘汰机制与索引管理减少缓存碎片绑定淘汰路径与请求生命周期支持独立淘汰策略效果线上平均缓存命中率达到93%高频用户场景下缓存命中率超过95%相比传统前缀树命中率约60-70%缓存利用率提升约50%3. GCache分布式缓存跨级搬运成本趋近于零问题当KVCache超出GPU显存容量时必须将部分数据转移到CPU内存或SSD而这些跨级搬运会带来巨大的延迟和带宽开销。解决方案小米自研了GCache三级缓存系统实现KVCache在GPU显存、CPU内存和NVMe SSD间的自动流转架构设计采用非中心化元数据管理支持内存/磁盘多级缓存与平滑扩缩容通信优化通过RDMA通信实现单进程170GB/s读吞吐、280μs延迟存储策略基于访问热度自动将数据在三级缓存间流转减少无效搬运效果跨级数据搬运成本降至优化前的近1/7显存外的KVCache存储CPU/SSD延迟从毫秒级降至微秒级在相同成本下可承载的缓存量成倍提升支持更长上下文窗口4. KVCache亲和调度L2命中率提升25%问题传统调度策略无法感知KVCache的位置导致请求可能被路由到没有缓存的GPU实例造成频繁的跨设备数据迁移。解决方案小米实现了KVCache亲和调度与计算量感知优先调度请求路由优先将请求路由到已缓存其前缀的GPU实例负载均衡结合计算量感知策略避免短请求被长请求拖慢缓存协同三级长度分桶策略提升缓存共享效率效果L2缓存命中率提升约25%单机吞吐量提升约30%用户首次响应时间(TTFT) P90降低约30%缓存状态一致性问题显著改善避免因状态不一致导致的缓存失效5. decode阶段MTP加速前128Token加速2.3倍问题传统解码方式逐Token生成无法充分利用GPU并行计算能力导致解码阶段效率低下。解决方案小米在decode阶段引入了多令牌预测(MTP)加速技术并行预测支持SWA的KVCache优化使有效容量提升近5倍CUDA优化结合CUDA Graph显存调优与PD分离预分配优化分层加速原生支持3层MTP加速不同位置的Token采用不同加速策略效果前128 Token生成速度提升约2.3倍128-256 Token生成速度提升约1.5倍单节点并发处理能力显著增强相同硬件条件下可支持更多并发请求显存利用率提升支持更大批量推理“国模国芯”未来成本进一步降低的基础小米MiMo-V2.5-Pro的降价不仅仅是当前技术优化的结果更与小米的国模国芯战略密切相关。这一战略为未来API成本的进一步下降奠定了基础。1. 国产芯片的能效比优势小米MiMo-V2.5系列几乎覆盖所有国产推理芯片包括阿里平头哥真武810E、天数智芯、燧原科技、沐曦和昆仑芯等。这些国产芯片在能效比上具有显著优势平头哥真武810E能效比达500 IPS/W远超国际主流水平天数智芯通过PD分离架构Prefill/Decode解耦提升推理吞吐60%FP8计算支持国产芯片普遍支持FP8混合精度计算与MiMo-V2.5-Pro的架构设计高度契合与英伟达A100/H100相比国产芯片在相同性能条件下具有更低的采购成本和更高的能效比为API服务提供商降低了硬件投入和能源消耗成本。2. 软硬协同优化的边际成本优势小米MiMo-V2.5系列与国产芯片的深度适配带来了显著的软硬协同优势平头哥真武810E支持FP8混合精度计算集成HGAI软件栈实现vLLM框架的分钟级适配天数智芯通过Transformer-Engine架构为MiMo-V2.5-Pro提供无损量化工具包在完全保障模型精度前提下实现长文本处理效率提升50%、算力利用率提升60%燧原科技基于自研驭算TopsRider软件栈进行深度优化实现高吞吐、低延迟的稳定运行这种软硬协同优化使API服务提供商能够充分利用国产芯片的特性进一步降低单位Token的推理成本。3. 供应链自主可控与政策支持国模国芯战略不仅在技术层面具有优势还带来了供应链和政策层面的支持供应链自主可控国产芯片的供应链不受国际限制避免了因芯片短缺导致的成本上升算力补贴政策深圳、北京等地推出训力券和国产芯片采购补贴政策最高抵扣60%算力费用规模化部署优势国产芯片的规模化应用如深圳14000P集群摊薄了边际成本这些因素共同作用使小米能够在国产芯片生态中获得更低的硬件成本和更高的能效比为API价格的进一步下调提供了空间。五、成本与商业策略的良性循环小米的降价策略不仅是技术能力的体现更是精心设计的商业闭环1. 缓存命中率与成本的正向循环小米的API价格分为缓存命中和未命中缓存两档。以MiMo-V2.5-Pro为例缓存命中时输入价格仅为每百万Token 0.025元而未命中时价格高达3元。小米通过百万亿Token创造者激励计划已发放100万亿免费Token吸引开发者调用积累海量缓存数据从而将缓存容量优势转化为高有效命中长度。这种策略形成了降本→获客→再降本的良性循环使API服务在接近满负载运行的情况下仍能维持收支平衡。2. Token Plan计费体系的重构小米对Token Plan计费体系进行了全面重构实现了加量不加价Lite套餐定价39元可用Token从0.6亿提升至41亿提升约68倍Standard套餐定价99元可用Token从2亿提升至110亿提升约55倍Pro套餐定价329元可用Token从7亿提升至380亿提升约54倍Max套餐定价659元可用Token从16亿提升至820亿提升约51倍这种计费体系重构使同等付费价格下用户可使用的Token数量提升至原来的5至8倍显著降低了用户的使用门槛同时保持了API服务的盈利性。与竞品对比成本结构的革命性变化将小米MiMo-V2.5-Pro与DeepSeek-V4-Pro、GPT-5.5 Pro等竞品进行对比可以更清晰地看出小米在成本结构上的创新技术指标MiMo-V2.5-ProDeepSeek-V4-ProGPT-5.5 Pro上下文窗口1M1M≤256k缓存命中价0.025元/百万tokens0.02元/百万tokens0.3元/百万tokens未命中缓存价3元/百万tokens1元/百万tokens7元/百万tokens输出价6元/百万tokens6元/百万tokens21元/百万tokensKVCache存储需求1/7同级方案1/5同级方案基准(1x)prefill计算量1/7同级方案1/5同级方案基准(1x)缓存命中率平均93%平均85%平均70%数据来源从对比中可以看出小米MiMo-V2.5-Pro在KVCache存储和prefill计算量上实现了行业领先的优化使其在长上下文场景下具有显著的成本优势。同时其高缓存命中率也进一步降低了实际调用成本。未来趋势从能力溢价到效率竞赛小米MiMo-V2.5-Pro的降价策略标志着大模型行业竞争焦点的显著转移1. 行业格局的K型分化当前国内大模型市场呈现出明显的K型分化特征低价开源阵营以小米和DeepSeek为代表将缓存命中价锚定在0.025元/百万tokens左右高端定制服务阵营如智谱GLM、腾讯混元等维持价格稳定甚至小幅上调2. 技术驱动的成本革命大模型的竞争正从围绕智商的能力比拼迅速转向围绕效率的工程与成本综合竞赛。小米的降价证明真正的行业颠覆依靠技术重构成本逻辑而非烧钱补贴。3. 普惠AI的基础设施化小米的降价策略旨在将大模型从奢侈品推向基础设施级别。通过降低API调用成本使过去仅头部企业敢大规模使用的AI Agent、长文本深度分析等复杂任务现在中小开发团队也具备了经济可行性。结论技术重构成本逻辑的典范小米MiMo-V2.5-Pro能够实现API价格最高降幅99%的核心原因在于通过五大技术突破重构了推理系统的成本逻辑Hybrid SWA架构采用1:7 Full:SWA稀疏比将prefill计算量降至同级GA方案的约1/7KVCache双池分治将存储需求降至同级方案的约1/7提升缓存利用率SWA-aware前缀树通过窗口安全长度匹配规则将线上缓存命中率提升至93%以上GCache分布式缓存通过RDMA通信实现低延迟数据迁移使显存外的KVCache几乎无额外成本KVCache亲和调度与MTP加速提升缓存命中率和解码效率进一步降低单位Token成本这些技术突破与小米的国模国芯战略相结合形成了技术-硬件-生态的协同优化闭环为AI从奢侈品走向基础设施提供了可行路径。对于开发者这是以极低成本调用顶尖模型的时代对于行业这是一次关于效率与创新的深刻倒逼。小米MiMo-V2.5-Pro的降价并非单纯的价格战而是一场由工程优化能力驱动的成本革命。它证明当模型能力逐渐逼近当前阶段的瓶颈时推理效率、服务成本和系统工程能力将成为决定市场格局的新变量。真正的技术进步不仅体现在模型参数和能力上更体现在如何以更低的成本提供更高效的服务上。大家也可以测试一下看看效果欢迎分享我在用 MiMo 开放平台体验小米顶尖模型 MiMo V2.5等通过我的邀请码注册为新用户即得 ¥10 API 体验金。邀请码7ZUPPS注册后点控制台左下方入口填入体验金40天有效