推理即产品，训练只是研发

张

张建站

2026/4/8 19:28:50

10分钟阅读

我们发布AI助手的前一晚我盯着笔记本电脑上的nvidia-smi。显存带宽已经拉满而计算利用率只有12%。就像一辆被困在车流中的法拉利——烧着油却寸步难行。我们的70B模型——最先进的训练成本高昂——却像一个压力山大的图书管理员一样缓慢地输出token。用户要等三秒钟才能看到Hello。就在那一刻我清楚地意识到训练是研发推理才是产品。这是一个团队的故事——所有隐含的前提条件都适用。但如果你是一位CTO或工程负责人正在模型规模上投入巨资而你的用户却盯着闪烁的光标发呆我希望这能帮你省去一些痛苦。1、大谎言“更大的模型更好的产品”我们被灌输了一个简单的叙事更大的模型能带来更好的智能。于是我们训练更大的模型。我们做基准测试。我们庆祝胜利。然后我们部署——现实给了我们当头一棒首个token的响应时间超过2秒对话在回答过程中中断系统在适中的并发量下崩溃用户不在乎你的70B模型。他们关心的是从提问到看到自然回复之间的0.4秒。**反直觉的真相**对于许多面向客户的场景——聊天、摘要、问答——一个较小的模型配合优化良好的推理栈往往感觉上比一个延迟高、可靠性差的大模型更智能。因为智能不仅仅是能力本身它是通过速度和一致性被感知的。2、当7B方案行不通的时候这就是需要细致分析的地方。我们的方案之所以有效是因为我们的用例是一个处理相对简单查询的对话助手。但这并不普遍适用。如果你在构建复杂的推理系统高级代码生成工具长上下文的Agent领域特定的专家系统那么模型能力确实更重要。在这些场景下较小的模型可能会完全破坏你的产品。我们的领域对错误比较宽容但并非所有领域都是如此。3、真正起作用的三个层次每个人都在谈论量化、批处理和投机解码。但真正的问题是你把赌注押在哪里3.1 量化不是妥协而是特性我们最初把4-bit量化视为一种折衷。实际上它变成了一种优势。延迟改善如此显著以至于用户感觉模型更智能了。准确率变化微乎其微但满意度却提高了。**经验**在生产环境中速度是智能的一个特性。为用户体验优化——而不是为基准测试——除非你的用例需要精确度。3.2 连续批处理投机解码转向连续批处理通过vLLM使吞吐量提高了三倍。加上投机解码——使用较小的草稿模型——将生成速度从约45 token/秒提升到100以上。P95延迟从约2.8秒降到0.7秒以下。**经验**延迟每减少100ms都能提升用户参与度。推理架构不仅仅是工程——它是增长的杠杆。3.3 硬件选择匹配情感需求我们尝试了不同的硬件配置包括内部使用Groq。首token响应时间低于100ms时体验感觉是即时的。一位产品经理形容它像魔法一样。那一刻改变了我们对基础设施的思考方式。我们最终采用了混合方案GPUA100处理延迟敏感的工作负载CPU通过llama.cpp处理批处理任务**经验**根据你想提供的体验来选择硬件。速度创造愉悦效率创造可持续性。4、相邻层次语义缓存和提示塑造这些不是核心层次——但它们是强大的放大器。我们引入了语义缓存使用向量存储缓存命中率约20-30%缓存响应延迟约0.02秒提示塑造几轮对话后总结对话历史减小KV缓存大小提升token生成效率约15%这些优化加在一起使我们推迟了原计划六个月的GPU升级。**经验**推理不仅仅是模型本身——而是围绕它的一切。5、案例研究我们实际观察到的结果初始配置70B模型HuggingFace pipeline单个A100结果P95延迟4-5秒并发数3-4个用户成本约$2/百万token经过十周的重新设计7B微调模型经过大多数查询验证4-bit量化AWQvLLM带连续批处理和投机解码语义缓存20-30%命中率提示塑造混合硬件GPU CPU新结果P95延迟0.6-0.9秒并发数最高80个用户成本$0.30-0.40/百万token基础设施成本降低约45%用户留存提升约35%相关性付费转化六个月内提升15-20%最重要的成果是什么团队停止了救火重新开始建设。6、诚实的免责声明这不是一个通用的行动指南。我们的用例相对简单结果经过取整且依赖具体场景并非所有优化都通过受控实验进行了隔离验证部分结果是相关性而非严格的因果关系这些技术是真实的但它们需要仔细的度量和迭代。7、残酷的真相大多数公司没有AI问题但他们有一个伪装成AI的系统工程问题。我们责怪模型太笨而实际上它们是带宽受限内存瓶颈调度不当服务效率低下我们在训练上投入巨资——却在交付上投入不足。8、下一步毫秒经济在未来几年公司将不仅仅在模型规模上竞争。他们将在以下方面竞争延迟可靠性体验推理架构正在成为竞争护城河而今天大多数组织正用茶匙在挖掘这条护城河。9、最后的话给过去的自己的备忘录如果我能回到发布前夜我会说模型是潜力。推理是现实。而用户只为现实买单。我们花了几个月追逐更智能的模型。真正推动进展的是让现有模型在关键任务上变得毫不费力。在你投资更大的模型之前问问我们真的需要它吗还是我们需要一个更好的推理系统如果你的团队不能清楚地回答这个问题你不是在构建产品而是在堆积参数。——一个正在康复的模型规模最大化主义者原文链接推理即产品训练只是研发 - 汇智网

Qwen3-0.6B-FP8模型在STM32项目开发中的创新应用：自动生成代码注释与文档

Qwen3-0.6B-FP8模型在STM32项目开发中的创新应用：自动生成代码注释与文档 1. 引言做STM32开发的朋友，估计都经历过这样的时刻：项目代码写完了，功能也调通了，但一回头，发现注释没写，文档更是没…...

2026/4/8 19:28:53 阅读更多 →

SoftTimers嵌入式软定时器：非阻塞时间管理方案

1. SoftTimers 软件定时器库深度解析：面向嵌入式实时系统的非阻塞时间管理方案在嵌入式系统开发中，时间管理是构建可靠、响应及时应用的核心能力。Arduino 平台广泛使用的delay()函数虽简单易用，却因其完全阻塞的特性，从根本上破坏…...

2026/4/8 19:28:54 阅读更多 →

别再只会用剪映了！用FFmpeg的zoompan滤镜，5分钟给静态图片做出电影感推拉镜头

用FFmpeg的zoompan滤镜为静态图片注入电影级动态效果当你在社交媒体上看到那些令人眼前一亮的动态图片展示时，是否想过它们是如何制作的？大多数短视频创作者会立即想到剪映、Premiere等图形化工具，但这些工具往往无法提供精细的控制和批量处…...

2026/4/8 19:28:54 阅读更多 →

ESP32硬件PWM控制库PWMOutESP32实战指南

1. PWMOutESP32 库深度解析：面向嵌入式工程师的 ESP32 PWM 控制实践指南 1.1 库定位与工程价值 PWMOutESP32 是一个专为 ESP32 系列微控制器设计的轻量级 PWM 输出控制库，其核心目标是提供 Arduino 风格的 pwm.analogWrite(pin, value) 接口&#xff…...

2026/4/8 18:53:09 阅读更多 →

AVR长周期看门狗库：突破8秒限制实现毫秒级精准复位与睡眠唤醒

1. LongerWatchDog 库概述：突破AVR看门狗定时器的固有约束在嵌入式系统开发中，看门狗定时器（Watchdog Timer, WDT）是保障系统可靠性的关键机制。传统Arduino平台（尤其是基于ATmega328P、ATmega2560等AVR架构的板卡&…...

2026/4/8 10:49:13 阅读更多 →

LeetCode 92. Reverse Linked List II 题解

LeetCode 92. Reverse Linked List II 题解题目描述给你单链表的头指针 head 和两个整数 left 和 right ，其中 left < right 。请你反转从位置 left 到位置 right 的链表节点，返回反转后的链表。示例 1： 输入：head [1,2,…...

2026/4/8 7:20:54 阅读更多 →