【AI编程实战】别再只盯着模型了!2026 年最值得关注的技术是 Harness
一、灵魂拷问:你的 AI 工具为什么有时靠谱有时翻车?你有没有遇到过这种情况——同一个 Claude Sonnet 模型,在 Claude Code 里跑得飞起,但直接调 API 就开始"胡说八道"?别人用 OpenClaw 起飞了,你装了同样的工具却频频翻车?明明用的都是最顶级的模型,产出却天差地别?别怀疑自己。你差的可能不是模型,是 Harness。二、什么是 Harness?模型本身只会生成文本。是 Harness 给了它读文件的能力、写代码的能力、搜索代码库的能力、在终端执行命令的能力。没有 Harness,Claude 就是一个只会说话的大脑——有智力,没有手脚。Simon Willison 有一个更精炼的定义:Coding agent = harness for LLM这就是 Harness 的本质——它是包裹在 LLM 外围的那一层,让模型从"能说"变成"能做"。三、行业大辩论:Model 重要还是 Harness 重要?模型派(Big Model)的观点来自 OpenAI 和 Anthropic:“All the sauce, it’s all in the model. And this is the thinnest possible wrapper over model. We literally could not build anything more minimal.”—Boris Cherny, Claude Code 产品负责人Anthropic 一直强调 Claude Code 的 Harness 极简,核心能力都在模型里。OpenAI 的 Noam Brown 也说过:“Reasoning models 出现后,很多 Agent 工程的 scaffolding 就不需要了。给 reasoning model 同样的问题,不需要任何 scaffolding,它自己就能搞定。”Scale AI 的 SWE-Atlas 测试数据似乎也在支持模型派——Harness 的差异在误差范围内:Opus 4.6: Claude Code vs 通用 SWE-Agent → +2.5 分 GPT 5.2: 通用 SWE-Agent vs Claude Code → +2.5 分结论:不同模型在不同 Harness 上表现不同,Harness 的选择是"噪声"?但 Harness 派(Big Harness)不同意。LangChain 的 Jerry Liu 直言不讳:“The Model Harness is Everything — the biggest barrier to getting from AI is your own ability to context and workflow engineer themodels.”LangChain 的实测数据打了模型派的脸:仅优化 Harness 层的逻辑,在底层模型(Claude Sonnet 4.5)完全不变的情况下,Coding Agent 的任务得分从 52.8 提升至 66.5,行业排名从第 30 名跃升至第 5 名。Anthropic 官方自己也在认真研究 Harness——他们专门发了《Effective harnesses for long-running agents》,研究如何让 Agent 跨越多个上下文窗口持续工作。我的判断:模型重要,Harness 也重要。但两者发力的阶段不同:模型能力 → 决定能力上限 Harness 工程 → 决定能否逼近上限Claude Code 年化收入破 10 亿美元——这是一个 Harness 产品的收入,不是模型本身的收入。市场已经给出了答案。四、Agent = Model + Harness这是 2026