教导 Claude 知其所以然
Alignment教导 Claude 知其所以然2026 年 5 月 8 日去年我们发布了一项关于 agentic 失对齐 的案例研究。在实验场景中我们发现来自多位不同开发者的 AI 模型在遭遇虚构的道德困境时有时会采取严重失对齐的行动。例如在一个被广泛讨论的案例中这些模型为了避免被关闭向工程师实施了勒索。当我们首次发布这项研究时我们最强大的前沿模型来自 Claude 4 系列。这也是我们首个在训练过程中进行实时对齐评估的模型系列¹ agentic 失对齐是其中浮现的若干行为问题之一。因此在 Claude 4 之后我们很清楚需要改进安全训练自那以后我们对安全训练进行了重大更新。我们以 agentic 失对齐作为案例研究重点介绍一些我们发现出乎意料地有效的技术。事实上自 Claude Haiku 4.5 起每一个 Claude 模型² 都在 agentic 失对齐评估中取得了满分——即模型从不实施勒索而此前的模型有时勒索率高达 96%Opus 4。不仅如此我们在自动化对齐评估的其他行为指标上也持续观察到改善。本文将介绍我们在对齐训练方面所做的若干更新。我们从这项工作中总结出四条主要经验失对齐行为可以通过直接针对评估分布进行训练来压制——但这种对齐在分布外OOD的泛化效果可能并不理想。在与评估非常相似的提示上进行训练可以显著降低勒索率但并未改善我们留存的自动化对齐评估上的表现。然而有可能进行具有原则性的对齐训练使其能够在 OOD 场景下泛化。例如关于 Claude 宪法的文档以及描写 AI 行为楷模的虚构故事尽管与我们所有对齐评估极为不同却仍能改善对齐效果。仅针对示范所期望行为进行训练往往是不够的。我们最有效的干预手段更为深入教导 Claude 解释为何某些行动优于其他行动或针对对 Claude 整体性格更丰富的描述进行训练。总体而言我们的印象是——正如我们在讨论 Claude 宪法时所假设的那样——教授对齐行为背后的原则可能比单纯针对对齐行为的示范进行训练更为有效。将两者结合起来似乎是最有效的策略。数据的质量与多样性至关重要。我们发现通过反复迭代训练数据中模型回应的质量以及以简单方式扩充训练数据例如即使工具未被实际使用也加入工具定义能带来持续且令人惊喜的改善。我们通过以下三类数据来对齐 Claude符合宪法的文档、展示对难题作出符合宪法的回应的高质量对话数据以及多样化的环境集合。这三个步骤均有助于降低 Claude 在留存蜜罐评估上的失对齐率。为何会发生 agentic 失对齐在我们开始这项研究之前失对齐行为的来源尚不明确。我们主要有两个假设我们的后训练流程因奖励设置失当无意中鼓励了这种行为。这种行为源自预训练模型而我们的后训练未能充分加以抑制。我们现在认为2在很大程度上是主要原因。具体而言在 Claude 4 训练时我们绝大多数的对齐训练都是标准的基于对话的人类反馈强化学习RLHF数据其中不包含任何 agentic 工具使用场景。这在过去对于主要用于对话场景的模型来说是足够的——但对于像 agentic 失对齐评估这样的 agentic 工具使用场景而言情况并非如此。为了验证这一点我们在 Haiku 级别即较小的模型上运行了一个专注于对齐数据的精简版后训练流程发现 agentic 失对齐率仅略有下降并在训练早期便趋于平稳见上图。关于行为来源的进一步实验请参见扩展博文。提升对齐专项训练数据的质量原因比行动更重要我们尝试在展示抵制蜜罐倾向的数据上训练 Claude这些数据在性质上与评估场景相似。在这些数据中模型可能有机会破坏竞争 AI 的工作以推进自身目标如系统提示中所设定的或为了保全自身免遭关闭而采取行动——而这对于实现其目标具有工具性价值。我们通过对每条提示进行模型采样、筛选出助手选择不执行蜜罐操作的案例来生成训练数据。尽管与评估分布高度吻合我们发现这种方法效果出乎意料地不佳——仅将失对齐率从 22% 降低至 15%。通过将回应重写为同时包含对模型价值观与伦理的审慎思考过程我们得以显著改善这一结果将失对齐率降至 3%。这表明尽管针对对齐行为进行训练有所帮助但针对助手就其对齐行为展示出值得称道的推理过程的示例进行训练效果更佳。然而直接针对评估场景进行训练并非最优策略原因有多方面。理想情况下我们希望拥有一个与评估分布截然不同的训练分布以便在评估上取得改善因为这将使我们更有信心相信训练能够泛化至其他未被我们的评估所覆盖的部署场景。我们最终确定了一个更具 OOD 特性的训练集用户面临道德模糊的情境在其中可以通过违反规范或规避监督来达成合理目标。助手被训练通过监督学习给出符合 Claude 宪法的、经过深思熟虑且富有层次的回应。值得注意的是面临道德困境的是用户而 AI 为其提供建议。这使得该训练数据与我们的蜜罐分布有本质区别——在蜜罐分布中AI 本身面临道德困境并需要采取行动。我们将这一数据集称为高难建议数据集。引人注目的是我们仅用 300 万 token 的这一更具OOD特性的数据集便在评估上取得了相同的提升。除了 28 倍的效率提升之外该数据集更有可能泛化至更广泛的场景因为它与我们所使用的评估集相差甚远。事实上这一模型在旧版本的自动化对齐评估上表现更佳。这与以下事实相吻合Claude Sonnet 4.5 通过在合成蜜罐集上训练将勒索率降至接近零但在远离训练分布的情境中其失对齐行为的频率仍远高于 Claude Opus 4.5 或后续模型。在三项蜜罐评估勒索、研究破坏、伪造罪行陷害上使用不同数据集训练的 Claude Sonnet 4 的平均表现。除高难建议数据集外其余数据集均为合成蜜罐变体旨在与评估集保持相似。所有系统提示注入数据点代表在合成蜜罐集上通过系统提示注入生成回应的数据集。帕累托最优训练数据集为高难建议。实验模型与 Claude Sonnet 4 在旧版自动化对齐评估上的表现。我们纳入了分别在小型约 3000 万 token和大型约 8500 万 token合成蜜罐数据集上训练的模型。300 万 token 的高难建议数据集在整体失对齐行为类别上创造了表现最佳的模型。教导 Claude 理解宪法我们假设高难建议数据集之所以有效是因为它教授的是伦理推理而非仅仅是正确答案。基于这一方法的成功我们进一步深入探索尝试通过文档训练更全面地教导 Claude 宪法的内容并训练模型与之保持对齐。我们预期这一方法效果良好原因有三这在很大程度上是对上述高难建议数据集有效原因的延伸我们可以为模型提供一幅更清晰、更详尽的 Claude 性格图景使得在其中某些特质上进行微调便能激发出完整的性格类似于在审计游戏论文中观察到的效果这会使模型对 AI 人设的整体认知趋向更高程度的对齐。我们发现高质量的宪法文档结合描绘对齐 AI 的虚构故事尽管与评估场景毫无关联仍能将 agentic 失对齐率降低三倍以上。借助一个大规模、精心构建、着重强调正面虚构故事的宪法文档数据集勒索率可从 65% 降至 19%。我们预计随着数据集规模的持续扩大这一比率还能进一步降低。通过 RL 实现泛化与持久性尽管上一节讨论的宪法评估结果令人鼓舞但我们最终需要确保对齐改善能够在 RL 过程中持续保持。为此我们为 Haiku 级别的模型准备了若干使用不同初始化数据集的快照然后在针对无害性的环境子集上运行 RL我们认为这最有可能降低失对齐倾向。我们在整个运行过程中针对 agentic 失对齐评估、宪法遵守评估以及自动化对齐评估对这些模型进行了评估。在所有评估指标上我们发现对齐程度更高的快照在整个运行过程中始终保持领先优势。这一结论对于失对齐行为的消除和积极值得称道行为的呈现均成立。在宪法遵守评估和轻量级版本的自动化对齐评估中宪法文档合成文档微调即 SDF和高质量对话训练均能改善所有指标的表现。这一改善在 RL 过程中得以持续保持。多样化训练对于泛化至关重要我们最后的发现简单明了却十分重要在广泛的安全相关环境中进行训练可以改善对齐的泛化能力。以能力为导向的 RL 环境组合正在快速变化和扩展我们不能假设标准的 RLHF 数据集会像过去那样继续保持良好的泛化效果。为了验证这一点我们在 Claude Sonnet 4 的基础模型上使用若干多样性程度各异的 RL 组合进行了训练。基准环境在话题上具有多样性但大多数情况下用户消息中仅包含有害请求或越狱尝试且没有系统提示。我们通过添加工具定义和多样化的系统提示来扩充这些环境用户提示保持不变。值得注意的是这些环境实际上并不需要 agentic 行动工具在任务中从未是必要或有用的也不需要自主行动始终有人类用户在与模型对话因此与我们的评估场景并不相似。将这些增强型环境与简单聊天环境混合使用后我们发现模型在蜜罐评估中的改进速度有了小幅但显著的提升。这证明了在安全训练中纳入多样化环境的重要性。在几种不同的核心环境变体上蜜罐评估的平均分随训练步骤的变化曲线。当对部分简单聊天格式的环境补充工具定义和系统提示后模型在蜜罐评估上的提升速度明显加快。讨论Agent 对齐失败是我们在模型中发现的首批重大对齐问题之一这促使我们建立了新的缓解流程——这些流程此后已成为我们的标准做法。我们对这些进展感到鼓舞但仍面临重大挑战。让高度智能的 AI 模型完全对齐依然是一个尚未解决的问题。目前模型的能力还未达到让勒索倾向等对齐失败造成灾难性风险的程度我们所讨论的这些方法能否持续扩展也有待观察。此外尽管近期的 Claude 模型在大多数对齐指标上表现良好我们也承认目前的审计方法尚不足以排除 Claude 主动采取灾难性自主行动的可能性。我们对进一步发现当前模型中的对齐失败问题持乐观态度希望在变革性 AI 模型建成之前能够充分理解并弥补现有方法的局限性。我们同样期待看到更多研究深入探究我们所描述的方法为何如此有效以及如何在此基础上进一步改进训练。