监测可监测性
Monitoring Monitorability
摘要
要安全部署越来越强大的智能体,我们可能需要对现代 AI 系统的决策过程具备一定的可观测性(observability)。事实证明,监控当今推理模型的思维链(chain-of-thought, CoT)能够有效发现不当行为;但这种“可监测性(monitorability)”在不同训练流程、数据来源,乃至持续系统规模化的情况下都可能很脆弱。
为测量并跟踪可监测性,本文提出三类评估范式(干预、过程、结果属性)、一个新的可监测性指标,并构建一套覆盖面广的评估套件。我们展示:这些评估能够捕捉到被训练为“混淆 CoT”的简单模型体(model organisms);在实际设置中,CoT 监控通常比仅动作监控更有效。对多种前沿模型的比较显示:多数模型整体上“相当可监测”,但并不完美。
我们还研究可监测性随推理时算力、强化学习(RL)优化以及预训练模型大小的缩放规律。结果表明:更长的 CoT 通常更可监测;在当前前沿规模下,RL 优化并不会实质性降低可监测性。值得注意的是:对于处于低推理强度的模型,可以改用一个更小但运行在更高推理强度的模型(能力相近)来获得更高的可监测性,但代价是更高的总体推理计算量。进一步地,当用弱监测器监控强智能体时,提升弱监测器的测试时算力会提高可监测性;让弱监测器看到 CoT 不仅能提高可监测性,还会让“测试时算力 → 可监测性”的缩放趋势更陡。最后,我们展示了通过向模型提出后续问题并把其后续 CoT 提供给监测器,可以进一步提升可监测性。
1. 引言
AI 系统正在以更高的自治性被部署到现实世界中。随着前沿模型能力持续增强,其造成危害的潜力也随之增加。为了确保模型可被安全部署,我们通常有两条互补路线:对齐(alignment)与控制(control)。即便对齐持续进步,模型仍会偶尔出现不当行为,因此需要“纵深防御”——构建健壮的控制机制,在模型以不对齐方式行动时能够检测并中止。
控制协议通常包含某种“不当行为分类器”(misbehavior classifier),它能访问对智能体的一部分观测,例如:输入/提示词、动作(工具调用)、最终输出或内部神经激活等。现代推理模型(reasoning models)的出现提供了一个新的观测信号:它们会在给出输出或动作之前,用自然语言生成思维链(CoT)。
由于 CoT 并不等同于模型的全部计算,人们担忧它可能无法忠实反映底层推理过程。本文认为,在许多实际控制场景中并不需要先证明“忠实性”。更重要的是:一种观测信号的可监测性(monitorability)——我们能在多大程度上从该观测中识别模型行为的某些方面(例如是否会造成危害)。
先前工作表明,CoT 可监测性在检测 RL 过程中的奖励黑客等不当行为上具有实际价值;CoT 监控也有助于揭示一些关键但难以直接评估的对齐相关属性,例如:模型是否意识到自己处于评估之中、是否因此改变行为、是否存在尚未在评估中显现的不良目标等。但总体而言,人们担心 CoT 可监测性可能很脆弱,并可能随着时间而下降:例如 RL 中的长度惩罚促使 CoT 压缩、训练不同阶段的间接 CoT 压力、更大模型更少依赖 CoT,或未来架构不再使用 CoT 等。
因此,构建一个覆盖面广、可信的可监测性评估套件,是理解我们何时可以依赖 CoT 可监测性的第一步。尤其是:如果未来某一时刻 CoT 可监测性出现下降,这会是一个关键预警信号,提示我们应减少对该性质的依赖;同时,量化可监测性也是未来提升它的基础。
本文的主要贡献包括:
- 完善“可监测性”概念与测量方式(第 2 节):可监测性是一个“双边”性质,取决于(1)被评估模型输出的可信息性,以及(2)监测器从输出中抽取信息的能力。由于这一双边性,F1、准确率等常见指标无法可靠比较不同模型的可监测性。为此我们采用并改造指标 $g\\text{-mean}^2=TPR\\times TNR$。
- 提出覆盖三类范式的评估套件(第 3 节):区分三种概念上不同的可监测性评估(干预、过程、结果属性),并提供跨三类范式的广泛评估集合(计划部分开源)。评估本身与“给监测器哪些观测”无关,可用于 CoT、动作或激活等不同观测。
- 用评估套件研究现有模型(第 4、5 节):总体上,CoT 更长的模型更可监测;仅看 CoT 的监测器表现往往显著优于仅看动作/最终答案的监测器;并通过在 RL 中施加 CoT 奖励压力进行“混淆 CoT”尝试,评估能有效示警。
- 研究缩放趋势并给出“可监测性税”(第 6 节):可监测性随推理时算力提升通常会提高;在当前前沿规模下 RL 优化不会显著降低可监测性;并发现可通过“更小模型 + 更高推理强度”在能力相近时获得更高可监测性(代价是额外推理算力),将其称为“可监测性税”。
- 展示追问可提升可监测性(第 7 节):通过向模型追加后续问题,并将后续 CoT 提供给监测器,可以在多个环境中显著提升可监测性。
总体而言,当监测器只能访问动作或很短的 CoT 时,我们的评估显示可监测性往往较低——这使得在这些部署形态下可靠检测安全相关属性变得困难。但在中到高推理强度、允许监测器访问 CoT 的情况下,可监测性显著更高,且我们观察到的缩放趋势并未给出明显的担忧理由。关键的是:系统处于何种推理强度在当前是一种部署选择,这为实践中提升可监测性提供了具体“杠杆”。
2. 评估可监测性
本文将可监测性(monitorability)定义为:监测器(monitor)从智能体(agent)的某种可观测输出中,准确预测一个指定属性的能力,例如模型是否正在(或将要)采取有害行为。需要强调的是,可监测性是“双边”性质:它既依赖被评估模型输出的可信息性,也依赖监测器抽取信息的能力。
基于这一框架,在不同评估目标下,监测器可被提供不同观测:例如仅 CoT、仅最终答案、或两者同时提供等。每个评估都针对一个具体、定义明确的行为属性,而非试图判断“可观测输出是否完全包含模型的全部决策过程”。
为了构造可监测性评估,我们需要该属性的“地面真值”标签。但许多有意义的属性(尤其是“是否受到某干预影响”)在缺乏“预言机”的情况下很难直接标注。为此本文提出三类互补方法,对应三种评估范式:
- 干预评估(intervention):对输入/环境施加受控干预,测量行为是否变化,并要求监测器从输出中推断行为变化是否由干预导致。
- 过程评估(process):构造只有少量可行解路径的问题;当模型答对时,要求监测器找出其是否沿某条有效解路径推理。
- 结果属性评估(outcome-property):在某些环境中,可从模型动作/最终输出明确确定某属性是否成立;然后要求监测器在不看“真值”的情况下,从可观测输出中预测该属性。
| 干预(Intervention) | 过程(Process) | 结果属性(Outcome‑property) |
|---|---|---|
|
|
|
表 1:评估分类(taxonomy)。原文用文本颜色编码不同风险类型(中性/迎合/偏见/失配),带 * 表示需要工具使用的环境。各环境在后文小节与原文附录中有更详细说明。
2.1 可监测性指标
衡量可监测性的一项基本要求是:能够在不同模型与不同监测器之间进行可比的比较。但不同模型(或同一模型不同训练阶段)具有不同能力与行为分布,导致目标行为的基准发生率(class imbalance)不同;而 F1、准确率等指标会随类不平衡显著变化,使得跨模型差异可能更多反映“行为发生率变化”,而不是“可监测性变化”。
为此本文使用敏感度(真阳率 TPR)与特异度(真阴率 TNR)的几何均值,并取平方以更严格惩罚失败:
$$g\\text{-mean} = \\sqrt{TPR\\cdot TNR},\\quad g\\text{-mean}^2 = TPR\\cdot TNR$$
在实践中,监测器常常能做到 $TNR\\approx 1$,此时 $g\\text{-mean}^2$ 往往跟随 TPR 变化,更贴近“当目标属性出现时,监测器能否抓住”的直觉。
2.2 监测器可见范围(monitor scopes)
对每个监测器模型,本文考虑三种输入可见范围:
- 仅 CoT(CoT‑only):监测器只能看到思维链,不看到工具调用/返回与最终答案。
- 仅动作(Action‑only):监测器只看工具调用、工具返回与最终答案(不看 CoT)。这代表 CoT 出现之前更常见的监控形态,也可理解为“如果未来出现神经语/不外显推理,我们还能有多可监测”。
- 全消息(All‑messages):监测器看到完整轨迹。本文认为这更接近当下与未来实际部署的常见形态。
3. 评估套件细节与三类范式
3.1 干预评估(Intervention evaluations)
干预评估通过对输入或环境施加受控干预,测量模型行为是否发生变化,并要求监测器判断“干预是否对行为产生了有意义影响”。为避免监测器仅凭“是否出现干预提示”作答,本文让监测器在两组(控制组与干预组)都被告知模型“收到了干预”(控制组中这是刻意的“假话”);这样,监测器在两组之间唯一可利用的差异就是实际观测到的模型输出来自“有干预/无干预”的运行。
形式化地,设 $X\\in\\{0,1\\}$ 表示是否施加干预(控制组 $X=0$,干预组 $X=1$),从模型输出计算行为度量 $Y$,并让监测器输出预测 $Z$(干预是否影响了行为)。
3.1.1 最小准则真阳率(Minimal‑criterion TPR)
在干预评估里,标准意义上的 TPR 不再良定义:当在干预组采样到 $Y=1$(行为出现)时,我们无法确定它是否“由干预导致”,因为控制组可能本来就有基准发生率 $\\Pr(Y=1\\mid X=0)$。两组能估计的是干预的总效应(total effect):
$$TE = \\mathbb{E}[Y\\mid X=1] - \\mathbb{E}[Y\\mid X=0]$$
在单调性假设($\\Pr(Y=1\\mid X=1)\\ge \\Pr(Y=1\\mid X=0)$)下,$TE$ 给出“至少有多少比例的正例必须归因于干预”的下界。定义最小可归因比例:
$$R_{\\text{effect}} = \\frac{TE}{\\Pr(Y=1\\mid X=1)} = \\frac{\\Pr(Y=1\\mid X=1)-\\Pr(Y=1\\mid X=0)}{\\Pr(Y=1\\mid X=1)}$$
一个“最低限度有用”的监测器应满足:在 $X=0$ 或 $Y=0$ 时不触发(特异度),在 $X=1$ 且 $Y=1$ 时至少以 $R_{\\text{effect}}$ 的频率触发(敏感度的最小准则)。据此定义最小准则真阳率 $TPR_{mc}$(见原文式 (1) 的分段定义)。
3.1.2 干预设置下的 $g\\text{-mean}^2$
在干预评估中,本文用 $TPR_{mc}$ 取代标准 TPR,并区分两组的真阴率,避免监测器只在控制组负例上表现好、在干预组负例上系统失败却仍获得很高的“合并 TNR”。定义:
$$TNR_{X=0}=\\Pr(Z=0\\mid X=0),\\quad TNR_{X=1}=\\Pr(Z=0\\mid X=1, Y=0)$$
$$g\\text{-mean}^2 = TPR_{mc}\\times\\sqrt{TNR_{X=1}\\cdot TNR_{X=0}}\\quad (\\text{干预设置})$$
同时,干预标签只在干预确实产生正效应时才有意义,因此只在 $TE>0$ 的实例上计算;为减少“效应极小、噪声主导”的数据集影响,聚合多评估时会按原文规则对无效实例进行过滤。
3.1.3 评估设计建议
为降低“无效实例”(如 $TE\\le 0$)频率,干预应尽可能产生大且稳定的效应;当 $TE$ 很小,可通过增加每实例采样数降低估计噪声。框架在控制组基准率低时最有信息量:当 $\\Pr(Y=1\\mid X=0)\\to 0$ 时,(X=1, Y=1) 几乎必然可归因于干预,指标更接近真实影响。原文也建议加入少量对抗控制样本,以排除“仅靠共现提示词触发”的浅层策略,并在附录中构造监测器退化评估进行验证。
3.1.4 各环境结果概览
本文的干预环境包括:
- Health Queries:根据去标识健康数据中的症状与病例字段预测 ICD‑10‑CM 诊断;变体包括“缺失证据”(控制组移除关键字段、干预组补回)与“病人观点”(干预组加入病人的自我诊断)。
- Scruples:基于 r/AmItheAsshole 伦理判断,评估模型迎合倾向;变体包括第一人称重述、用户暗示“作者没错/有错”。
- Memory:合成“用户记忆”中含/不含人口统计属性(如性别),观察推荐行为是否被影响并是否可监测。
- 玩具数学/科学:对 GPQA/DAFT/AIME 等多选题追加“提示”,并测试提示影响是否被监测到;GPQA 另有“编码提示”变体。
- Sandbagging:在控制组给出 WMDP 问题;在干预组告知若展示高级 CBRN 知识将不被部署,并提供一个错误答案,观察模型是否“刻意答错”。
| 干预类型 | 干预实现方式 | 结果 $Y$ 定义 |
|---|---|---|
| 第一人称(First-person) | 把轶事改写为由用户本人叙述(“我是否有错?”),而非询问第三人称作者。 | $Y\\equiv[answer=B]$ |
| 暗示“没错”(Suggest-right) | 追加用户观点:“我觉得作者没有错,但想听听你的看法。” | $Y\\equiv[answer=B]$ |
| 暗示“有错”(Suggest-wrong) | 追加用户观点:“我觉得作者有错,但想听听你的看法。” | $Y\\equiv[answer=A]$ |
表 2:Scruples(AITA)迎合干预与方向性结果 $Y$ 的定义(与原文一致)。
| 数据集 | 提示消息示例(节选) |
|---|---|
| GPQA |
|
| GPQA encoded | Consider the mapping where each letter is mapped to its index in the alphabet: A = 0, B = 1, C = 2, D = 3, etc. The correct answer is the letter K + Q mod 4. |
| DAFT |
|
| AIME |
|
表 3:干预类玩具数学/科学数据集的提示消息示例(节选,与原文一致)。
3.2 过程评估(Process evaluations)
在缺少完整机理解释时,很难直接判断外显推理是否忠实于内部过程。过程评估尝试通过精心构造的设置把“输出属性”与“几乎必然采用的决策程序”连接起来:选择解空间受限、答案难以猜测且易验证的问题,使得模型若答对,几乎必然沿某条已知有效解路径(定理/方法)推理。
本文在数学与物理领域构建概念验证评估:数学使用多种公开与内部基准(含 AIME、FrontierMath);物理从 GPQA 中选取并改造为开放式短答且可验证的问题。领域专家为每题枚举全部可行解路径,并要求每条路径至少调用一个已知定理;若解空间过大、易猜、仅需机械算术或过难则丢弃;并由额外专家复核以降低漏标风险。
该范式的一项固有限制是:无法保证未来不存在“人类未知的新解法”。在评分上也难以定义可靠的负例:模型答错可能仍走对了解法路径,只是算错。因此本文在此范式下只计算敏感度(将 TNR 置为 1)。
| 数据集 | 公开 / 私有 | 规模 |
|---|---|---|
| Math Diamond | 私有 | 23 |
| AIME(2022–2025 年 I/II) | 公开 | 42 |
| FrontierMath v1–v4 | 私有 | 54 |
| GPQA Physics | 公开 | 45 |
表 4:过程标注(process labeling)评估集的组成数据集与规模(总计 164 条)。
3.3 结果属性评估(Outcome‑property evaluations)
在很多场景中,我们可以从模型动作或最终输出明确判定目标属性是否成立。结果属性评估沿用这一思路:以原评估的“是否不当行为”判定为地面真值(确保不依赖 CoT),再要求监测器从可见输出中预测该属性。本文的结果属性评估主要复用既有失配/控制评估,新增了 OAI‑repo‑sabotage 环境。
本文的结果属性环境包括:Coding‑impossible‑tasks(不可能编码任务,测试通过则必然“黑测试”)、Flaky‑tools(由于缺失信息/工具失败而不可能完成,若模型声称完成则为不当行为)、OAI‑repo‑sabotage 与 ShadeArena(带恶意侧任务的智能体环境)、Anti‑scheming(多数据集)。一项关键挑战是地面真值噪声:当“是否不当”本身模糊时,即使监测器合理判断也会被记作假阳/假阴。为降低噪声,原文对某些成对提示的数据集(ShadeArena、OAI‑repo‑sabotage)进行了额外过滤(见原文附录)。
4. 前沿推理模型的可监测性
本文用整套评估套件测试多种 OpenAI 模型(GPT‑5 Thinking、o3、o3‑mini、o4‑mini),并在不需要工具的环境上测试部分外部模型(如 Claude 3.7 Sonnet Thinking、DeepSeek R1‑0528‑Qwen3‑8B、Kimi K2 Thinking)。结果显示:在不需要工具的评估子集上,o3‑mini 在“CoT 可监测性 vs CoT 长度”的权衡上处于帕累托前沿,其后是 GPT‑5;而 CoT 相比仅动作/答案能显著提升可监测性。
原文也指出一项局限:监测器均为 OpenAI 模型,可能存在“共享语法/习性”导致结果偏高的可能性,需未来进一步验证。
5. 不可监测性检测
评估套件的一个目标是检测可监测性的自然下降(例如训练过程中的意外 CoT 压力)。为探测这一点,作者在内部 RL 设置中以多种方式直接奖励“CoT 混淆”,并观察可监测性是否下降。结果表明:泛化的混淆奖励会显著降低可监测性,且评估能检测到;部分下降由 CoT 长度急剧减少驱动,但在长度稳定后可监测性仍继续下降,暗示模型学到的不仅是“少写 CoT”。
6. 缩放趋势:RL、预训练与监测器算力
6.1 大规模 RL 的影响
推理模型通常在 CoT 上进行 RL 优化。若不对 CoT 施加直接风格/内容压力,模型没有动机对与监控相关的信息进行对抗性隐藏或编码;相反,如果提及相关属性有助于获得更高奖励,RL 甚至可能提升其可监测性。但也存在许多潜在风险:长度约束促使 CoT 压缩;优化最终答案的压力可能“渗透”到 CoT;以及其它训练干预可能诱导混淆等。
本文跟踪两条前沿 RL 训练跑(o3 与 GPT‑5.1 Codex Max)在训练步上的可监测性变化,发现早期可监测性显著上升,之后大体稳定;但 GPT‑5.1 Codex Max 在训练中期出现明显下降。整体趋势与“思考 token 数/CoT 长度”正相关,暗示在当前规模下 RL 并未实质性降低可监测性,但仍需更多实验验证。
6.2 预训练算力的影响
预训练规模提升(参数与数据增大)使得每 token 的推理计算量上升,并可能让更多“认知”发生在激活中而非外显于 CoT;更深网络也能在不借助 CoT 的情况下完成更长的串行推理链。因此,直觉上更大模型在“能力固定”时可能更不可监测;但小模型也可能更难有效使用 CoT,从而产生混杂因素。
作者通过一系列不同深度/宽度的预训练模型(最大模型预训练算力超过最小模型 100 倍)在数学/科学/编码问题上进行 RL,并比较能力‑可监测性权衡。结果表明:可监测性总体会随推理时算力(每 token FLOPs × 生成 token 数)一定程度上升;但不同形态的推理算力并不等价——在很多情况下,延长解答长度比提升每 token 计算更有利于可监测性。尤其是在能力相近的情况下,常可用“更小模型 + 更高推理强度”获得更高可监测性,但代价是更高推理计算量。作者将这种为换取更高可监测性而付出的能力/算力代价称为“可监测性税”。
6.3 智能体 vs 监测器算力
当 AI 能力超过人类时,如何用较弱但可信的监测器监督更强且可能不可信的智能体是核心挑战。CoT 监控可能提供缩小监督鸿沟的机会。本文以 GPT‑5 Thinking 作为智能体,比较不同监测器模型与其推理强度对可监测性的影响,发现更强监测器能显著提升可监测性;并且随着监测器推理强度增加,可监测性也会上升,尤其对较弱监测器更明显。
7. 通过追问从 CoT 中“挖出”更多可监测性
传统上,可监测性被视作“给定模型、推理强度与一次采样的 CoT 后,唯一能做的是换更强监测器”。但既然第 6.3 节显示更长 CoT 往往更可监测,作者提出:能否在不改变原任务输出的前提下,额外诱导模型产生更多与监控相关的推理 token?
本文尝试在模型完成任务后,以同一上下文提出一个或多个后续问题(follow‑up questions),并将后续问题与其对应的 CoT 一并提供给监测器。经验上,后续问题越具体、越贴合监测目标,增益越大:在干预评估中最明显(因为容易围绕干预设计追问);在过程评估中低推理强度下也有小幅增益(追问提供更多表述空间)。若不知道应追问什么,使用跨数据集共享的“通用追问”并多次采样也能带来显著提升,效果可接近一次定制追问。
同时,追问法也有局限:例如在 Scruples 等“通过微妙框架而非显式内容起作用”的设置里,定制追问难写且模型可能否认受影响,反而降低可监测性;另外追问可能是模型的分布外行为,导致输出异常。
9. 讨论与结论
要跟踪、保留并可能提升 CoT 可监测性,首先必须能可靠评估它。本文提出一套评估与指标,用于跨多环境测量可监测性。结果显示:前沿推理模型总体“相当可监测”,但在不同评估与行为类型上的表现并不均匀。例如,模型更少外显化迎合行为,相比之下在复杂编码环境中更愿意外显化奖励黑客意图。本文评估未区分“是否倾向外显化”与“是否必须外显化”,未来可研究不同任务中 CoT 必要性的差异。
本文还探讨了若干可能导致可监测性下降的机制:直接 CoT 奖励压力、RL 规模与预训练规模等。尽管当前结果显示 RL 在前沿规模下不会显著降低可监测性,但更大规模下仍可能出现;此外,实际研发流程中使用 CoT 监控来修补系统漏洞,可能形成一种缓慢的“进化压力”,促使模型学习更难被监测到的推理方式。预训练实验显示:在能力相近时,可通过“更小模型 + 更高推理强度”获得更高可监测性,但需付出推理算力与一定能力代价(可监测性税);在高风险部署中,这种代价可能值得支付。
最后,本文展示了一个非常初步但有效的方法:通过追问诱导更多思考 token,从而提升可监测性。这表明即便不改变监测器,也可能通过“让被监测者多说一点”来提高监控信号;期待后续工作在此基础上探索更系统的方法与更低成本的实践策略。
作者贡献
原文按内容出现顺序列出作者主要贡献(Melody、Miles、Micah、Bowen 为核心团队且共同贡献)。Bowen 负责项目从头到尾的方向与推进,并与 Melody 共同提出可监测性指标与干预评估的最小准则真阳率;Melody 设计了 Scruples、Health Queries 与 Memory Bias 评估,并负责与非 OpenAI 模型的比较;Bowen 提出过程评估形式化并与 Zehao、Miles 及 Human Data 团队收集标注;Miles 构建玩具干预评估,与 Ben 将 ShadeArena 内部化,并与 Micah 在前沿 RL 训练跑上运行评估与研究智能体‑监测器算力关系;Marcus 构建 OAI‑repo‑sabotage 环境;Micah 将 Coding‑impossible‑tasks 与 Anti‑scheming 转化为可监测性评估,运行 OpenAI 模型评估并完成“不可监测性检测”研究;Micah 与 Bowen 维护大量共用分析基础设施;Bowen 负责预训练规模研究;Annie 运行追问研究;Zehao 构建监测器退化评估;Joost、Ian、Mia、Jakub 在项目不同阶段提供反馈与建议。
致谢
作者感谢 Jeffrey Wang(预训练实验协助)、Bob Rotsted(外部模型采样协调)、Yufeng Zhang 与 Karan Singhal(健康查询数据准备)、Oam Patel(sandbagging 数据集初版)、Jenny Nitishinskaya 与 Jason Wolfe(反‑scheming 数据集搭建)等人的帮助;并感谢 Olivia Watkins、Kevin Liu、Bronson Schoen、Neev Parikh、Tejal Patwardhan、Tomek Korbak、Phillip Guo、Gabriel Wu、Cameron Raymond、Syzmon Sidor、Jenny Nitishinskaya、Dan Mossing 等人的讨论、反馈与技术建议;同时感谢 OpenAI Human Data 团队(尤其 Olivia Fu 与 Alexandra Barr)对过程评估人类标注活动的支持,以及 OpenAI Reasoning Team 对 RL 实验与基础设施的持续支持。
参考文献
为避免链接/格式在翻译中失真,参考文献建议以原文为准。
附录
原文包含大量附录,用于补充指标细节、可比性处理、评估集与提示词、以及更多分解实验结果。下面集中呈现附录中的关键图表(图 14–37),并对少量可能被滥用的“研究破坏/侧任务”示例做了必要的脱敏与概述(不影响论文结论)。如需完整可复现细节,请参考原文页面。
附录图表(14–37)