我们发布AI助手的前一晚我盯着笔记本电脑上的nvidia-smi。显存带宽已经拉满而计算利用率只有12%。就像一辆被困在车流中的法拉利——烧着油却寸步难行。我们的70B模型——最先进的训练成本高昂——却像一个压力山大的图书管理员一样缓慢地输出token。用户要等三秒钟才能看到Hello。就在那一刻我清楚地意识到训练是研发推理才是产品。这是一个团队的故事——所有隐含的前提条件都适用。但如果你是一位CTO或工程负责人正在模型规模上投入巨资而你的用户却盯着闪烁的光标发呆我希望这能帮你省去一些痛苦。1、大谎言“更大的模型 更好的产品”我们被灌输了一个简单的叙事更大的模型能带来更好的智能。于是我们训练更大的模型。 我们做基准测试。 我们庆祝胜利。然后我们部署——现实给了我们当头一棒首个token的响应时间超过2秒对话在回答过程中中断系统在适中的并发量下崩溃用户不在乎你的70B模型。他们关心的是从提问到看到自然回复之间的0.4秒。**反直觉的真相**对于许多面向客户的场景——聊天、摘要、问答——一个较小的模型配合优化良好的推理栈往往感觉上比一个延迟高、可靠性差的大模型更智能。因为智能不仅仅是能力本身它是通过速度和一致性被感知的。2、当7B方案行不通的时候这就是需要细致分析的地方。我们的方案之所以有效是因为我们的用例是一个处理相对简单查询的对话助手。但这并不普遍适用。如果你在构建复杂的推理系统高级代码生成工具长上下文的Agent领域特定的专家系统那么模型能力确实更重要。在这些场景下较小的模型可能会完全破坏你的产品。我们的领域对错误比较宽容但并非所有领域都是如此。3、真正起作用的三个层次每个人都在谈论量化、批处理和投机解码。 但真正的问题是你把赌注押在哪里3.1 量化不是妥协而是特性我们最初把4-bit量化视为一种折衷。实际上它变成了一种优势。延迟改善如此显著以至于用户感觉模型更智能了。准确率变化微乎其微但满意度却提高了。**经验**在生产环境中速度是智能的一个特性。为用户体验优化——而不是为基准测试——除非你的用例需要精确度。3.2 连续批处理 投机解码转向连续批处理通过vLLM使吞吐量提高了三倍。加上投机解码——使用较小的草稿模型——将生成速度从约45 token/秒提升到100以上。P95延迟从约2.8秒降到0.7秒以下。**经验**延迟每减少100ms都能提升用户参与度。 推理架构不仅仅是工程——它是增长的杠杆。3.3 硬件选择匹配情感需求我们尝试了不同的硬件配置包括内部使用Groq。首token响应时间低于100ms时体验感觉是即时的。一位产品经理形容它像魔法一样。那一刻改变了我们对基础设施的思考方式。我们最终采用了混合方案GPUA100处理延迟敏感的工作负载CPU通过llama.cpp处理批处理任务**经验**根据你想提供的体验来选择硬件。 速度创造愉悦效率创造可持续性。4、相邻层次语义缓存和提示塑造这些不是核心层次——但它们是强大的放大器。我们引入了语义缓存使用向量存储缓存命中率约20-30%缓存响应延迟约0.02秒提示塑造几轮对话后总结对话历史减小KV缓存大小提升token生成效率约15%这些优化加在一起使我们推迟了原计划六个月的GPU升级。**经验**推理不仅仅是模型本身——而是围绕它的一切。5、案例研究我们实际观察到的结果初始配置70B模型HuggingFace pipeline单个A100结果P95延迟4-5秒并发数3-4个用户成本约$2/百万token经过十周的重新设计7B微调模型经过大多数查询验证4-bit量化AWQvLLM带连续批处理和投机解码语义缓存20-30%命中率提示塑造混合硬件GPU CPU新结果P95延迟0.6-0.9秒并发数最高80个用户成本$0.30-0.40/百万token基础设施成本降低约45%用户留存提升约35%相关性付费转化六个月内提升15-20%最重要的成果是什么 团队停止了救火重新开始建设。6、诚实的免责声明这不是一个通用的行动指南。我们的用例相对简单结果经过取整且依赖具体场景并非所有优化都通过受控实验进行了隔离验证部分结果是相关性而非严格的因果关系这些技术是真实的但它们需要仔细的度量和迭代。7、残酷的真相大多数公司没有AI问题但他们有一个伪装成AI的系统工程问题。我们责怪模型太笨而实际上它们是带宽受限内存瓶颈调度不当服务效率低下我们在训练上投入巨资——却在交付上投入不足。8、下一步毫秒经济在未来几年公司将不仅仅在模型规模上竞争。他们将在以下方面竞争延迟可靠性体验推理架构正在成为竞争护城河而今天大多数组织正用茶匙在挖掘这条护城河。9、最后的话给过去的自己的备忘录如果我能回到发布前夜我会说模型是潜力。 推理是现实。 而用户只为现实买单。我们花了几个月追逐更智能的模型。真正推动进展的是让现有模型在关键任务上变得毫不费力。在你投资更大的模型之前问问我们真的需要它吗 还是我们需要一个更好的推理系统如果你的团队不能清楚地回答这个问题你不是在构建产品而是在堆积参数。——一个正在康复的模型规模最大化主义者原文链接推理即产品训练只是研发 - 汇智网