卡帕西点赞Transformer内置计算机!每秒3万Token吞吐,拿下世界最难数独
闻乐 发自 凹非寺量子位 | 公众号 QbitAILLM推理已经顶尖精确计算却跟不上。这局怎么破卡帕西点赞的解决方法来了在大模型内部构建一台原生计算机。新方法不搞外包那一套不依赖任何外部工具直接在Transformer权重里内嵌可执行程序。并通过创新的2维注意力头设计将大模型的推理效率提升至指数级。能在普通CPU上实现每秒3万Token的流式输出。在Transformer内嵌原生计算机咱都知道当前最先进的大模型拿下奥赛金牌已经不足为奇了。甚至有些还能挑战人类还未解决的数学问题与科学问题。但有一个始终无法回避的现实是这些模型在需要多步骤、长上下文的精确计算任务中仍然表现惨淡。为了弥补这个短板现在行业上有两种主流的解决方案。一是工具调用让模型生成脚本由外部沙箱解释器执行后返回结果二是智能体调度通过外部状态机拆分计算任务循环调用模型处理上下文。但这两种方式的本质都是给模型开“外挂”把计算能力挂靠在外部。标准Transformer的自回归解码更是让这一问题雪上加霜——每生成一个Token模型都要对全量历史序列进行注意力扫描计算代价随序列长度线性增长让长轨迹的精确计算不可行。Percepta团队的新研究就跳出了外挂思路直接让Transformer当计算机。首先他们在Transformer权重中实现了一套现代化RAM计算机与WebAssembly解释器。WebAssembly可以理解成一种特别快、特别稳定的底层机器指令C、C这些编程语言写完的代码都能编译成它。有了这个解释器意味着任意标准化的程序代码都能被编译为模型可识别的Token指令序列。比如要计算35模型会先这样写然后切换到快速解码模式在Transformer内部一步步把这段程序跑完同时把执行过程按行输出成一串标记计算结果直接在模型的Token输出流中生成不需要再等外部工具返回结果而且全程透明。这种透明性也让模型的计算过程从黑箱外部依赖变成白盒实现了计算的可验证性。内置计算机有了怎么提高效率呢对这个问题团队进行了2维注意力头的创新设计。在2维注意力头的设计中每个历史Token的Key向量都是二维的当前步骤的Query向量则可视为二维平面上的一个方向。此时注意力查询的核心问题找到与Query最匹配的Key就转化为了计算几何中的凸包极值查询也就是在二维平面的凸包上找到沿Query方向最远的点。借助凸包数据结构模型可以在生成Token的过程中动态维护历史Key的凸包每一步的注意力查询只需在凸包上进行。这让计算复杂度从O (n) 降至O (log n)。研究团队基于这一原理设计了HullKVCache。该缓存在普通CPU上实现了31037 Token/秒的吞吐量完成约9000行指令序列仅需1.3秒效率较传统KV缓存提升了近200倍。而且该设计完全基于标准PyTorch Transformer不需要定制内核或稀疏掩码通过简单配置维度与注意力头数就能实现。最难数独100%精确求解团队选取了两个典型的长程精确计算任务来验证这套方法。这两个实际任务是10×10最小代价完美匹配和公认的世界最难数独Arto Inkala。在10×10最小代价完美匹配任务中模型内部执行匈牙利算法全程以自回归方式生成计算轨迹。从行分配、Dijkstra算法求解到对偶变量更新、增广路径查找每一步的计算过程与代价累积都清晰记录最终精准求解出最优匹配方案。整个过程在CPU上完成Token生成速度达到33583 Token/秒7301行/秒的指令输出效率。在数独求解过程中针对仅有21个提示数的Arto Inkala数独模型内部执行了一个完全正确的、编译后的数独求解器。求解器先通过约束传播填充21个单元格然后进入搜索阶段逐个尝试可能的数字赋值遇到矛盾立即回溯。每一次尝试、验证、一致性检查、矛盾检测与回溯步骤都以可读的日志行和Token轨迹形式自回归生成并输出。最终在3分钟内实现了100%精确求解。这项工作由Christos Tzamos领衔与Percepta其他研究者共同完成。Christos Tzamos是麻省理工博士目前任雅典大学计算机科学副教授同时是Percepta的创始研究员。Percepta是General Catalyst旗下的AI转型公司团队成员包括来自Meta FAIR、MIT、Google等机构的人才。参考链接[1]https://x.com/ChristosTzamos/status/2031845134577406426?s20[2]https://www.percepta.ai/blog/can-llms-be-computers