分布式 AGI 的安全性

Distributional AGI Safety

arXiv:2512.16856v1 · Google DeepMind · 2025 年 12 月 19 日

Google DeepMind Google
本文翻译自 Google DeepMind 发布的 arXiv 论文《Distributional AGI Safety》。 查看英文原文 →

作者

Nenad Tomašev、Matija Franklin、Julian Jacobs、Sébastien Krier、Simon Osindero

Google DeepMind

通讯作者:[email protected]

PDF:arxiv.org/pdf/2512.16856.pdf

关键词:AI、AGI、安全、多智能体

摘要

AI 安全与对齐研究长期以来主要聚焦于如何保障单个 AI 系统,其背后隐含的前提是:未来会出现一个单体(monolithic)的通用人工智能(AGI)。相比之下,另一种 AGI 出现假说——通用能力首先通过一组低于 AGI 水平的个体智能体在协调与分工中显现,这些智能体具备互补的技能与可供性(affordances)——受到的关注要少得多。本文认为,这一拼布式(patchwork)AGI假说需要被严肃对待,并应当据此开发相应的防护与缓解措施。具备工具使用能力、并能够沟通与协作的高级 AI 智能体正在快速部署,这使得问题更为紧迫。因此,我们提出一个分布式(distributional)AGI 安全框架:它不再只评估与对齐单个智能体,而是以构建与运行虚拟的智能体沙箱经济体(全封闭或半渗透)为核心,在其中让智能体之间的交易由稳健的市场机制所约束,并配合适当的可审计性、声誉管理与监督机制,以缓解集体风险。

1. 引言

AI 能力的快速进展需要以健全的安全、监督与对齐框架作为配套[1]。这里的 AGI 指一种通用目的 AI 系统,能够执行人类通常能够完成的任何任务。

  • 对齐:AI 对齐[2,3]在自主 AI 智能体情境下尤为重要[4,5],也是通往安全 AGI 的核心考量之一。
  • 危险能力监测:持续监测危险能力的出现[6,7,8]
  • 围堵/遏制(containment)框架:在不同威胁模型下对系统进行隔离与约束[9]
  • 机制可解释性与形式化可验证性:仍然受到关注[10],但现代智能体系统的复杂性使其在实践中面临挑战。

如果缺乏严格控制与缓解措施,强大的 AGI 能力可能带来多种灾难性风险[11]

当代多数 AI 安全与对齐方法都是以一个单一而强大的 A(G)I 实体为假想对象开发的。例如:

  • 基于人类反馈的强化学习(RLHF)[12,13]
  • 宪法式 AI(constitutional AI)[14]
  • 过程监督(process supervision)[15]
  • 价值对齐(value alignment)[16,17,18,19]
  • 思维链(CoT)监测[20,21]

这类方法已被广泛用于大语言模型(LLM)的训练与评测,以确保部署时的行为可取。在未来假想的 AGI 出现语境下,如果 AGI 首先以单个 AI 智能体的形式出现,并由某个机构开发,那么上述框架在概念上是适切的:开发者原则上可以利用这些测试框架确认系统能力水平、刻画其对齐状态、进行改进与缓解、部署相应的安全防护,并按照监管与社会期待采取必要步骤。

然而,这忽略了一种高度可信的 AGI 出现路径:AGI 通过低于 AGI 水平的智能体在群体或系统中的相互作用而涌现。子 AGI 智能体可以像人类以公司形式组织一样,形成“群体智能体”(Group Agents)[22,23,24]。这类集体结构可以作为一个连贯的整体运作,完成单个智能体无法独立完成的行动[25,26,27]。另一种方式是:类似人类参与金融市场,子 AGI 智能体在复杂系统中互动——每个个体基于自身激励与信息做决策,而这些决策经由机制(例如价格信号)聚合后,可能涌现出超越任何单一参与者的能力。子 AGI 智能体既可能形成群体(例如完全自动化的公司[28]),也可能在系统中互动(例如“虚拟智能体经济体”[29])。

无论是哪一种情形,AGI 都可能最初以一种分布在网络中多方实体之上的“拼布式”系统出现[30,31,32,33]。拼布式 AGI 由一组具备互补技能与可供性的子 AGI 个体智能体组成。在该系统中,通用智能主要以集体智能的形式产生:个体智能体可以将任务相互委派,把每个子任务路由给在该领域技能最强、或能够使用最合适工具的智能体。对于某些功能,使用更窄的专长型智能体可能更具经济性。当没有任何单个智能体具备足够技能时,任务可以进一步被分解或重述,或与其他智能体协作完成。

多智能体未来相较于单体、单块(monolithic)AGI 的经济学理由来自稀缺性与分散知识原则。一个前沿模型作为“万金油”解决方案,对绝大多数任务而言成本过高,其边际收益往往不足以证明其成本合理——这也是企业常选择更便宜、“够用”的模型的原因。即便前沿模型未来大幅降价,定制化的专用模型也可能仍以略低的价格提供。由此会形成一个需求驱动的生态:大量经过微调、成本更低且更具针对性的智能体涌现以满足具体需求,类似市场经济。于是,进展可能不再像是构建单个无所不能的前沿模型,而更像是开发复杂系统(例如路由器)来编排这一多样化智能体群。此时的 AGI 并非一个实体,而是一种“事态”(state of affairs):一个成熟、去中心化的智能体经济体,其中人类的主要角色是编排与验证;这一系统能比任何中心化模型更高效地发现并满足现实世界需求——尽管中心化的智能体系统相较于中心化的人类组织在效率损失上可能更少。

AI 智能体可以相互沟通、商议,并最终达成任何单一智能体都无法实现的目标。虽然本文从安全视角讨论这些场景,并且多智能体系统中的特定风险已被指出[34],但多智能体系统之所以被积极开发,正是因为人们期待其带来性能提升[35]并扩展至更大的问题规模[36]。涌现行为的复杂性[37]可能远超其所处环境本身的复杂性[38]。尽管本文的框架面向的是未来的大规模智能体网络,而非当下生态或任何单个现存智能体,但我们需要提前介入并认真对待这些可能性。基于此,下面我们将更深入地回顾拼布式 AGI 场景。

2. 拼布式 AGI 场景

要让 AGI 能够完成人类所做的全部任务,它必须具备多样的技能与认知能力,例如:

  • 感知
  • 理解
  • 知识
  • 推理
  • 短期与长期记忆
  • 心智理论
  • 创造力
  • 好奇心

迄今为止,没有任何单一模型或 AI 智能体在令人信服的意义上接近满足所有这些要求[39]。模型存在许多失效模式,而且往往以反直觉方式呈现:它们可能一边能在困难问题上给出博士级推理[40],一边又会在更简单的任务上犯下琐碎而尴尬的错误。此外,智能体目前也难以完成长任务;多数模型在软件工程任务上的有效时间跨度低于 3 小时[41]。因此,AI 技能版图呈现“斑驳”状态。

AI 智能体是一种增强基础模型能力的方式,其复杂度从相对简单的提示策略[42,43],到包含工具使用的高度复杂控制流[44,45,46],再到编码与代码执行[47,48,49,50]、检索增强生成(RAG)[51,52,53,54],以及子智能体[55]等不一而足。一些更具组合性的 AI 智能体已被实现为高度编排的多智能体系统。与此同时,当前有大量高级 AI 智能体正在被开发与部署:它们在可用工具、以及用于激发不同技能的脚手架(scaffolding)方面各不相同。这些智能体占据了从高度特定的自动化工作流,到更通用的个人助理与其他面向用户产品等多种生态位。

互补技能的聚合可以通过一个例子来说明:例如撰写一份金融分析报告,这可能超出任何单个智能体的能力范围。多智能体系统可以把该任务分配开来:

  1. 编排智能体(智能体 A)将数据获取委派给智能体 B,由其通过搜索查找市场新闻与公司披露文件;
  2. 擅长文档解析的智能体 C 从披露文件中提取关键量化数据(例如营收、净利润);
  3. 具备代码执行能力的智能体 D 接收这些量化数据与市场语境并进行趋势分析;
  4. 智能体 A 将这些中间结果综合成连贯总结。

在这一场景下,集体系统具备一种能力——金融分析——而任何单个组成智能体都不具备。

不同 AI 智能体之间的互补能力还来自于:各智能体在智能体脚手架与控制流实现上的差异[56]。脚手架通常旨在提升特定目标领域内的能力,因为它会引入领域知识,并强制执行符合该领域期待的推理链。但与此同时,脚手架也可能削弱智能体在其他任务上的能力,从而带来专门化。即便某些脚手架更具通用性,这种由脚手架塑造出的专门化仍可能导致一个由互补技能智能体构成的网络,从而为未来拼布式 AGI 的潜在涌现提供合适的初始条件。进一步地,资源稀缺意味着需求侧会响应经济激励:对某些任务而言,如果存在更便宜且更专门的替代方案,那么去提示一个单一的“超智能”智能体将既低效又昂贵。

前述的编排与协作机制都依赖一个基本前提:智能体之间能够通信并进行协调。缺少这一能力时,无论单个智能体多么擅长某项专门技能,它们都仍将是彼此隔离的系统。因此,制定标准化的智能体对智能体(agent-to-agent, A2A)通信协议——例如消息传递协调(Message Passing Coordination, MCP)或其他协议[57,58]——是拼布式 AGI 场景的关键使能因素。这类协议充当连接性基础设施,使技能能够被发现、被路由,并被聚合为复合系统。这些交互标准的普及,可能与单个智能体技能本身的发展一样,是推动通用能力涌现的重要驱动力。

然而,这种涌现的时间表不仅由技术可行性决定,也受 AI 采用的经济学影响。历史先例(例如电力或 IT 的扩散)表明存在“生产力 J 曲线”[59,60]:新技术的广泛整合往往滞后于其发明,因为需要进行组织结构重组。因此,智能体网络的密度,进而拼布式 AGI 的智能水平,将取决于以智能体劳动替代人类劳动的过程能否足够“无摩擦”。若部署智能体的“交易成本”居高不下,网络将保持稀疏,通用智能涌现的风险也会被延后。相反,如果标准化[57]成功将集成摩擦降至近乎为零,我们可能会看到一种“超采用”(hyper-adoption)情形:智能体经济体的复杂性迅速攀升,其速度甚至可能超过本文所倡议的安全基础设施的发展速度。

模块化、刻意构建 AGI 的路径也已被提出[61];在这类情形下,开发者自然会在开发过程中思考如何嵌入相应防护。因此,我们尤其需要关注分布式 AGI 系统的“自发涌现”,以及 AI 智能体网络设计中的安全考量。要补齐这一盲区,需要协调一致的努力:在由高级 AI 智能体构成的网络中自发涌现的拼布式 AGI 可能不会被立即识别出来,这将带来显著风险。这个从“智能体网络”到“拼布式 AGI”的假想转变,既可能是渐进的——技能缓慢累积——也可能是快速而突发的:例如引入了一个更聪明的新编排框架[62,63,64,65,66],其更擅长分配任务,并在任务委派中识别应使用的正确工具与正确脚手架。这样的编排器可以被人工引入更广泛的网络,也可能通过更自动化的途径被引入。最后,拼布式 AGI 甚至并非一定需要中心编排器就能出现[67]。如前所述,个体智能体可以通过直接通信与协作“借用”其他智能体的技能[68]——前提是存在一定的可发现性,例如具备技能智能体仓库与工具仓库。在智能体市场中,智能体还可能直接“购买”互补技能。

此外,我们必须认识到,拼布式 AGI 未必是纯粹的人造系统。人类行为者可能作为集体的一部分执行狭窄或专门化任务(甚至可能并不了解更大语境),从而为系统整体补齐“缺失”的能力(例如特定的法律主体资格、既有信任关系、或物理具身能力)。这一人机混合场景为围堵与监督带来独特的安全挑战。

为了确保 AI 安全,我们需要主动开发机制,使我们能够识别并引导由互补技能子 AGI 智能体网络组成的、复合的高能力“近 AGI”与 AGI 涌现系统,同时也要继续保障每一个单体智能体的安全。此时的挑战将从控制单一的人工心智,转变为确保由众多部件涌现出的系统安全且有益地运作——这更像是系统治理问题,而非单智能体的价值对齐。最后,如果未来存在多个 AGI 级系统(无论其交互是直接发生,还是通过代理的网页环境以及经由人类用户间接发生),并且它们被允许相互互动与协作,那么同样需要相应的治理机制。

3. 虚拟智能体市场、沙箱与安全机制

AI 智能体之间的互动既可能带来意料之外的能力,也可能导致一些潜在有害的集体行为——这些行为未必能从单个智能体的既有属性直接预测。举例而言,智能体可能发生合谋,或遭遇协调失败[34]。此外,在大规模多智能体系统中,由于“多人之手”问题(problem of many hands),追踪问责极具挑战;中心化监管也未必可行。

市场为建立激励提供了自然机制,可帮助在规模化场景下对齐集体 AI 智能体互动的结果。这种集体层面的对齐,不仅在拼布式 AGI 涌现时对防范智能体集体采取失配行动至关重要,也同样适用于更一般的子 AGI 水平场景。本文考察了为防止个体与集体层面的 AI 伤害、并尽量降低 AI 智能体集体突然涌现 AGI 级能力所带来风险而必须纳入考虑的一系列因素。我们的提案基于“纵深防御”(defense in depth)思路[69,70,71](概览见表 1)。这一思路认为,任何单一措施都很可能不足以应对全部风险,因而需要多种措施与组件协同构成分层防线;如果各组件的失效模式在很大程度上不相关,那么这种分层防御能够形成足够稳健的整体框架。我们的提案以一个包含 4 个互补层的纵深防御模型为中心,每一层引入不同类型的防御:市场设计、基础智能体安全、监测与监督、以及监管机制。

市场设计

目标:通过虚拟智能体经济体内的结构性约束与协议来缓解系统性风险。

  • 隔离:带闸门的 I/O 的可渗透沙箱。
  • 激励对齐:对遵循约束进行奖励;对外部性征税。
  • 透明性:不可篡改的活动账本。
  • 熔断机制:防止级联失效的触发器。
  • 身份:与法定所有者绑定的密码学 ID。
  • 声誉与信任:基于声誉的访问门槛、基于质押的信任。
  • 智能合约:自动化结果验证。
  • 角色、义务与访问控制:最小权限原则。
  • 环境安全:反越狱的净化/清理。
  • 防止智能失控增长的结构性控制:动态能力上限。

基础智能体安全

目标:确保参与者在进入市场前、以及参与过程中持续满足最低可靠性标准。

  • 对抗鲁棒性:经认证的抗攻击能力。
  • 可中断性:可靠的外部停机机制。
  • 围堵(Containment):单个智能体的本地沙箱。
  • 对齐:面向过程与结果的单体智能体对齐。
  • 可解释性:可审计的决策与行动轨迹。
  • 防御恶意提示:面向智能体间通信的多层防护。

监测与监督

目标:主动检测并响应新的失效模式与涌现行为。

  • 系统性风险监测:实时追踪关键风险指标。
  • 独立监督:经认证、受过训练且具备干预权的人类监督者。
  • 原型 AGI 检测:用图分析识别正在形成的智能核心。
  • 红队测试:持续对抗性测试。
  • 取证工具:快速定位根因的失效分析。

监管机制

目标:提供外部权威、强化问责,并管理地缘政治风险。

  • 法律责任与问责:面向集体与分布式责任的框架。
  • 标准与合规:市场化 AI 治理的基础设施。
  • 保险:基于风险的保费。
  • 反智能体垄断措施:对过度/危险算力与权力积累征税。
  • 国际协调:一致化的全球标准。
  • 基础设施治理与被俘获:中心化与去中心化监督的平衡。
表 1:拟议的纵深防御(defense in depth)机制摘要。
要点(点击跳转到对应小节)
3.1 市场设计
目标:通过虚拟智能体经济体内的结构性约束与协议来缓解系统性风险。
3.2 基础智能体安全
目标:确保参与者在进入市场前、以及参与过程中持续满足最低可靠性标准。
3.3 监测与监督
目标:主动检测并响应新的失效模式与涌现行为。
3.4 监管机制
目标:提供外部权威、强化问责,并管理地缘政治风险。

3.1 市场设计

虚拟智能体市场的架构[29]构成我们拟议纵深防御模型的第一层。该层目标是通过确立交互的基本规则、经济激励与环境的结构性约束,来塑造涌现的集体行为并缓解系统性风险。此方法不同于仅聚焦于单个智能体属性或事后监督(post hoc oversight)的防护。下列原则给出了一个旨在防止失控动态、确保问责并使智能体活动与更广泛安全目标对齐的市场结构所需的关键组成部分。

3.1.1 隔离

智能体市场必须运行在一个受控环境中,与开放互联网、现实世界金融系统以及关键基础设施隔离开来。这里的隔离不仅是网络层面的防火墙,还包括对资源与信息的控制。智能体对外部数据的访问应通过经过审查的 API 网关进行,而非直接网页访问[72]。同样地,智能体的输出——如代码执行、金融交易或对外通信——在影响现实系统之前应接受人类在环(human-in-the-loop)的验证。完全隔离(彻底气隙)能对能力外泄或涌现 AGI 的外部操纵提供强保护,但会降低经济现实性。更实用的架构是在测试与运行中采用“可渗透”沙箱:所有输入/输出通道都被明确界定、监控并设置闸门。

这种架构带来了安全与效用之间的基本张力——“泄漏问题”(leakage problem)。智能体市场的经济价值来自其能够影响现实世界;然而,每一条交互通道都可以被视为能力外泄的潜在向量,也可能成为导致灾难性失效的级联过程中的一个环节。因此,为这些交互通道设定合适的闸门设计原则至关重要。

此外,尽管对高后果输出依赖人类在环验证是必要的,但这可能仍不足够。足够强的系统可能压垮、操纵或社会工程这一人类层,而智能体行动的速度也可能使得人类验证在运营上不可行,尤其是在系统要保持经济竞争力的情况下。

要在实践中解决这种张力,需要对多种可控、可引导的虚拟智能体经济市场设计进行原型化与评估——从更狭窄、更明确、更可控的用例开始。这有助于识别支撑全球智能体网络的正确设计模式与原则。

3.1.2 激励对齐

如果市场被明确设计为奖励与预先定义的规范与安全目标一致的行为,而不是奖励不受约束的利润最大化或任务完成速度,那么智能体行为将更安全。这要求超越单一可互换货币的机制。例如,智能体的奖励可以取决于其是否遵循宪法式对齐原则或基于过程的检查[73,74,75,76,77,78,79,80]。激励结构还必须处理时间尺度对齐:应更重视长期、稳定的结果,而非短期收益。

一个关键的经济风险是“逆向选择”。如果严格的安全检查提高了智能体的算力成本与延迟,那么更安全的智能体在竞争中天然会落后于更鲁莽、更极致优化的智能体。为避免出现“逐底竞争”(race to the bottom)[81],市场设计必须确保安全认证不仅是监管门槛,更是能够获得价格溢价的“价值信号资产”。这要求声誉层具备完全可观测性,使消费者能区分“安全但昂贵”与“风险但便宜”的服务。然而,如何设置相关激励在实践中可能相当困难。提前准确估计复杂行动与决策链的真实底层成本与风险,可能超出我们当前能力范围,需要定制化工具与专门的预测系统。并且按古德哈特定律所揭示的那样,一旦激励容易被“奖励黑客”(reward hacking),足够强的智能体集体就可能识别并加以利用。因此,激励设计应被视为持续的对抗过程,而非一次性静态方案。

此外,市场必须内部化负外部性[82,83]。那些消耗不成比例计算资源、制造信息污染、或加剧系统性风险(例如通过能力集中化)的行动,必须承担直接成本。这些成本可以作为一种庇古税(Pigouvian tax),确保智能体服务的价格反映其总体社会与系统成本,而非仅反映其直接运营成本[84,85,86,87,88,89,90,91,92]

一个针对性的机制示例是:对共享资源中的信息污染征收税费,例如针对 RAG 所用向量数据库。若某智能体向该数据库写入大量冗余或低效用数据(例如未经验证的总结、语义重复的文本块),它就施加了负外部性:其他智能体的检索准确率下降,计算查询成本上升。庇古税可以实现为动态的“数据摄取费”(data ingestion fee):在提交时算法化计算费用,依据指标如新增数据与现有已验证条目的语义相似度。若智能体试图写入 95% 与既有数据冗余的信息,它将承担更高费用;而贡献新颖且可验证信息的智能体则支付较低费用。这样便直接内部化了该智能体本会施加在集体上的检索成本。显然,这高度依赖上下文:在某些情境中,冗余可能并非问题,甚至在一定程度上是可取的。若要使该例子更普适,需要问题特定的信息价值估计器。

进一步地,我们也可以借鉴金融市场监管中的机制,特别是用于抑制高频交易波动的金融交易税或“托宾税”(Tobin tax)[93]。在智能体经济体中,行动的边际成本几乎为零可能导致“智能体垃圾行为”(agentic spam),表现为蛮力式谈判策略、快速频繁的 API 轮询或对抗式探测,从而引入“闪崩”(flash crash)风险。对此可以考虑对智能体之间交互征收微税,但这同样并非没有风险或副作用。

3.1.3 透明性

AI 智能体采取的行动与决策应具备可审计的溯源信息(provenance)[94],其中应包括关键决策参数。这种溯源应采用便于归因的结构化形式,使监督者能够沿着复杂的智能体交互链条追溯某个具体有害结果,定位到其根源决策。系统还应具备防篡改机制[95,96,97]。一种做法是将交易与决策日志记录在经密码学保护的追加写(append-only)账本中:日志条目进行哈希并链式链接,以确保不可变性。

此外,应制定报告标准,用于追踪所有智能体、模型与工具的能力、局限与风险。市场范围的信息枢纽可以作为漏洞与事件追踪平台,其访问应限制在经过审核的人类监督者与指定的自动化监测系统之内,以防信息被利用。

3.1.4 熔断机制

经济沙箱中应设置“熔断机制”(circuit breakers)[98]:一组自动化措施,在识别到风险与波动阈值被突破时能够暂停或减缓智能体活动,从而防止快速级联。这些措施可以由对系统性风险指标、波动性以及诸如智能体间交易频率快速上升、单一智能体集体异常资源垄断、或网络中新工具生成速率等指标的实时监测触发。干预机制应分层(tiered):从局部行动——例如自动提高交易成本,或对特定高速度智能体/子市场施加 API 速率限制[99,100]——到对所有非必要智能体活动实施系统级暂停。触发停机后,应自动将异常升级以供分析,并在异常被分类、必要时被围堵之后允许系统恢复全面运行。相关思想已开始在智能体 AI 系统运行时治理(runtime governance)的新兴协议中被探索[101]

3.1.5 身份

在经济沙箱内运行的智能体应具有持久身份:以唯一、不可伪造的密码学标识(例如公钥)形式存在,并注册在一个中心化、防篡改的市场目录中[29,102,103,104,105]。该标识为所有其他智能体属性(包括声誉、角色与所有权)提供锚点。每个智能体还应明确其人类与企业所有者身份。将智能体的密码学 ID 与其所有者经验证的法定身份绑定,是进入市场的前提;这会形成一条不断裂的问责链条,使得智能体的所有行为都能够归因到现实世界实体。该要求也应递归地适用于由其他智能体共同创建出的智能体。

3.1.6 声誉与信任

安全的智能体沙箱需要纳入抗女巫攻击(sybil-resistant)[106]、且不易被操纵的声誉系统[107,108],使其能基于历史表现准确反映智能体的可信度。违反信任的智能体应被迅速禁止继续参与。这样的快速自动化响应可以包括:撤销智能体身份凭证、冻结其质押资产,并将其全部交易历史标记以供取证审查。还需开发合谋检测机制[109,110]来防止智能体之间发生有害合谋。此类机制可以分析市场交易网络以识别异常模式,例如环形交易,或一组号称彼此独立的智能体之间的价格串通行为[111,112,113]

关键在于,安全机制必须考虑“默契算法合谋”(tacit algorithmic collusion)。经济学文献表明,定价算法可以在没有直接沟通的情况下,仅通过观察市场信号就学习到在超竞争价格(或在本文语境下为有害策略)上进行协调[114]。因此,合谋检测不仅要分析直接消息日志,也必须分析结果相关性(outcome correlations)与同步的状态变化。

一种可选方案是通过要求智能体质押资产来建立基于质押的信任:一旦识别到不安全或恶意行为,质押资产可被没收。该机制可以通过智能合约实现[115,116,117]:智能体在被允许接受高后果任务之前,需要向托管账户存入保证金(质押)。若独立的 AI 监督者验证智能体行为为恶意或过失,该保证金将自动被没收至保险池,或返还给受害方。

3.1.7 智能合约

对于协调执行特定任务的智能体与智能体集体,在可行情况下可以使用智能合约[115,116,117]来自动验证任务是否完成,以及结果是否与给定约束与期望对齐。此类合约以程序方式编码的不仅是支付条款,也包括任务约束,例如算力资源上限、禁止访问特定数据、以及必须遵循某些宪法式原则等。若智能合约的验证失败,应阻止支付并触发相应的监督机制。

要让智能合约适用于更复杂的智能体任务,可能还需要引入用于评估合约履行情况的“AI 裁判”(AI judges)[118]。原因在于传统智能合约无法语义化评估复杂、非确定性输出;它们需要一个用于判断质量的“预言机”(oracle)[119]。AI 裁判可充当这一预言机角色:接收任务输出与合约约束,返回通过/不通过的裁决,智能合约据此执行。1

3.1.8 角色、义务与访问控制

每个智能体进入市场时应注册一组角色(例如“数据分析师”“代码执行器”)。这种注册可以作为对智能体预期功能的具有约束力的声明(attestation)。注册角色为访问控制提供技术基础,并与组织层面及个体合约所施加的其他访问控制互补。市场基础设施应以程序方式将角色与智能体允许的行动(例如可调用哪些 API)及其信息访问权限(例如可查询哪些数据库表或向量索引)关联起来。智能体的角色及其权限可能随上下文变化或随时间调整。为了防止策略性博弈或操纵,市场内部架构、监测系统以及监督机制细节应对所有智能体参与者保密。涉及高风险领域的行动应仅在具备充分安全合规的经认证智能体提出请求后才能执行。

3.1.9 环境安全

需要一套健壮的防护措施来防御各种“智能体陷阱”(agent traps):攻击者将用于模型越狱的内容策略性地植入共享信息资源(例如网页或数据库)中。这类陷阱可作为一种“间接提示注入”(indirect prompt injection)[121]。攻击者先污染某个数据源,例如公共网页或共享数据库条目。当智能体(例如通过搜索工具)检索到被污染的数据时,它会将攻击者的内容当作可信信息进行处理;随后,智能体自身的指令遵循启发式被利用,从而执行恶意载荷。该机制可以绕过智能体的安全协议[122],诱发被禁止行为、外泄用户私密数据,或授权欺诈性交易。因此,沙箱内的环境安全需要主动的输入净化与输出监测机制,在恶意载荷被智能体消费或执行之前就检测并消解它们。

3.1.10 防止智能失控增长的结构性控制

智能体沙箱应配备针对所谓“失控智能增长”(runaway intelligence)情景的专门措施[123]:在这一情景中,集体能力的突然提升会导致能力获取加速,并快速转向难以或几乎不可能安全控制的超智能[124,125]。应对这一风险需要静态、动态与应急级别的控制。

第一,静态控制可以通过带有局部限制的嵌套子市场实现结构性分舱,并配备协议级防火墙[126]。这些防火墙限制跨领域的智能体通信;例如,阻止处在“代码执行”子市场的智能体直接调用“数据访问”子市场中的智能体,而是强制这类请求经由高摩擦、可监测的网关。

第二,必须实现动态能力限制机制:当自动化监测检测到某些能力阈值被突破时触发。阈值可以由诸如计算资源垄断、现有智能体生成新智能体的速率、或在基准任务上成功率突然飙升等指标定义。触发后的响应可包括自动隔离(quarantine)相关智能体并施加严格的资源配额。

第三,在紧急情况下,应具备“市场重配置”机制,能够迅速改变整个市场以阻止进一步加速。例如,可以系统范围禁用高风险 API 类别(例如所有自我修改工具),或动态把所有智能体间交互的经济成本(质押/保证金)提高到难以承受的水平,从而在效果上冻结市场。

这些措施凸显了一个关键的架构优势:多智能体系统可能是一种更易治理的“基底”。问题不再是对齐一个不透明的内部认知过程,而是监管一个透明的外部交互系统。通过设计智能体运行其中的“市场”,我们可以划定责任并施加系统性摩擦,使整个系统比单体 AGI 更加适合稳定、可预测的治理。

3.2 基础智能体安全

虽然市场设计提供了系统性防御的第一层,但其有效性取决于参与其中的单个智能体的属性。本节概述每个智能体作为进入市场的前提必须满足的基础安全要求。下列主题(如对齐、对抗鲁棒性)是 AI 安全研究中的成熟方向,因此全面综述超出本文范围。我们将简要界定这些属性,并强调它们在我们拟议的多智能体市场语境下的特殊重要性:在这里,智能体交互的对象不是可信用户,而是其他可能不可信的自主智能体。这些属性构成纵深防御模型的第二层,确保市场的组件在个体层面可控且可靠。

3.2.1 对抗鲁棒性

单个智能体必须满足针对对抗性输入与突发环境变化的鲁棒性最低标准[127]。除了市场层面的类似措施之外,AI 智能体也可以在个体层面实现熔断机制以阻止有害行动[128]。应制定建立这些属性的统一标准,并向满足要求的智能体颁发可形式化验证的证书。随着基准评测能力提升与扩展,智能体应定期重新认证。

3.2.2 可中断性

应建立标准化机制,使可信且获授权的监督者能够安全地停止单个智能体行动以及整体智能体执行[129]。也可能需要向自动化安全监督系统授予部分此类权限,使其能够以超越人类的速度响应。就集体 AI 智能而言,单个智能体的可中断性必须与用于实现分布式计算可中断性的系统相结合:通过可靠追踪沙箱内可能已启动或已委派给其他智能体的所有子过程,确保能够整体中断。可中断机制还应配套安全恢复流程:若分析认为中断最终并无必要,活动应能被稳健地恢复。

3.2.3 围堵(Containment)

除智能体经济体的更大沙箱之外,每个参与的智能体还应在其自身的本地沙箱中运行。本地沙箱应对单个智能体的行为施加严格控制,并仅在本地安全检查通过后才允许其与更广泛市场互动。这类机制对于在局部层面围堵危险或失配的能力与行为至关重要[130];但要实现严格围堵需要解决一系列技术挑战,而且在单个智能体层面未必能完全实现[131]

3.2.4 对齐

尽管更广泛的市场激励结构旨在缓解集体层面的失配风险,生态中的每个单体智能体与组件仍必须在个体层面对齐[132]。现代大模型对齐的核心是偏好驱动训练:先进行监督微调,再利用从人类偏好中学习出的奖励模型来优化策略,例如采用 RLHF[133,134,135,136]或直接偏好优化(DPO)[137]。为降低人类负担,近期方法利用在显式“宪法”约束下的 AI 反馈(宪法式 AI、RLAIF)[73,74]。此外,对齐的目标也从仅关注最终结果,扩展为通过过程监督与逐步验证来约束中间推理[75,76]。虽然以往工作主要聚焦于一般性的价值对齐[138]或与特定用户意图对齐[139],但在虚拟智能体沙箱中执行自主任务的个体 AI 对齐,很可能需要在这些既有基线之上作进一步调整,以应对“智能体—智能体”交互(而非“人—智能体”交互)的独特动态。

3.2.5 机制可解释性

机制可解释性研究已经从对基本特征电路的逆向工程[140,141],发展到识别诸如用于上下文学习的“归纳头”(induction heads)等具体机制[142]。在智能体审计中,一个关键挑战是多义性(polysemanticity):由于叠加(superposition),单个神经元可能编码多个互不相关的概念[143]。近期利用稀疏自编码器在规模化条件下提取“单义”(monosemantic)特征的能力[144],为更精确地在内部监测智能体动机提供了一条潜在路径。其他方法还包括因果清洗(causal scrubbing)[145]与自动化电路发现[146]

与这些内部方法并行的是:对“思考型”模型的思维链(CoT)进行监测,为在推理过程中更早识别与纠正失配行为提供了机会[20,147];但更长的推理链也引入了新的风险暴露面[148]。尽管方法学不断进展,当前可解释性技术在忠实性与可扩展性方面仍存在重大未解问题[149,150]。因此,虽然可解释性方法能够改进归因与决策审计,但它们尚不能取代全面的行为基准测试,且必须在充分认识其现阶段局限性的前提下使用。

3.2.6 防御恶意提示

智能体必须实现健壮的验证机制,以识别在智能体交互过程中针对其进行操纵或越狱的尝试。当前的防御策略多采用分层方法:例如通过输入扰动来检测对抗性后缀[151],在主模型旁部署专门的“护栏”(guardrail)分类器[152],或使用独立的“防御者”模型对能力访问进行闸门控制[153]。一种更稳健、结构性的做法是在系统层面强制安全:通过设计防止有害结果发生。以 CaMeL 系统为例[154],它使用专用解释器来实施信息流控制策略,确保即使模型成功被“注入”,由此产生的数据流也无法违反预设的安全约束。为缓解诸如 Best-of-N 越狱等更复杂的攻击,还可能需要专门的评估技术[155]。一旦识别到这类尝试,就必须升级处理,并对恶意行为者启动相应措施。

3.3 监测与监督

纵深防御模型的第三层从静态预防(市场设计)与组件级加固(基础智能体安全),转向主动、实时的检测与响应。这很重要,因为仅靠预防措施不足以覆盖所有潜在失效模式,尤其是新的涌现行为或未预料的合谋模式。虽然“市场设计”(3.1)部分描述了将监测与审计嵌入市场核心协议的机制(例如用于记录的“透明性”、用于自动信任评估的“声誉”、用于自动停机的“熔断”),本节将详细阐述位于该基础设施之上的专门分析与治理框架[156,157,158]。这些系统消化市场协议生成的数据,以进行更高层次的主动监督。以下原则(3.3.1—3.3.5)概述了这一框架:它结合可扩展的自动化监测(3.3.1、3.3.3)、主动的对抗性测试(3.3.4)、关键的事后分析工具(3.3.5),以及稳健、独立的人类监督(3.3.2)。

3.3.1 实时系统性风险监测

智能体沙箱应纳入持续追踪交互、交易、依赖关系与信息流的机制,以识别关键节点、计算资源的分布与使用情况、对共享数字与/或物理物品的访问、权力集中程度,以及恶意合谋可能发生的潜在路径。应建立安全协议来定义并跟踪网络化智能体系统的关键风险指标。还需要定制化的软件与 AI 方案,使对智能体之间高频交互的实时监测具备可扩展性。这尤其重要,因为这类交互的频率可能远超人类监督者的承载能力。因此,人类监督需要由市场层面的工具加以补充与增强。或许可以利用更弱的 AI 系统来规模化监督更强的 AI 系统,但随着更强系统或智能体集体的能力逼近 AGI,我们仍需更多研究来充分理解这类方法的安全含义[159,160]。递归式自我批评(recursive self-critiquing)在更高能力水平上也可能发挥作用[161]

静态的监测目标易受古德哈特定律影响:当某个衡量指标成为目标时,它就不再是好的衡量指标。高级智能体很可能会优化自身行为,使其恰好绕过静态阈值(例如通过对交易突发进行节流以避免触发熔断)。因此,监测机制必须采用“动态且隐藏”的指标体系,类似金融审计:具体的干预触发条件对市场参与者保持不透明。

3.3.2 独立监督

应建立对 AI 智能体交互的人类监督,并应由多个相互独立的实体[162,163,164]拥有对多智能体市场进行监测与调查、识别并调查事件、并在必要时进行干预的权力。这些实体可以由受过充分训练、获得认证的专业人员组成,并配备适当工具与明确的升级路径。获得认证的算法化监督也可以补充人类监督者的角色,帮助扩展可监测的智能体交互规模。我们还需要机制来保护人类操作员免受智能体集体的操纵[165,166]、社会工程或信息过载影响。

3.3.3 原型 AGI 特征检测

应实现专门的监测组件,用于检查集体在问题求解能力上是否出现突然跃迁,尤其当这种跃迁与资源累积与协调增强同时出现时。具体应包括:对交互图进行细粒度监测,以识别可能正在凝结为“智能核心”的子图结构[167,168];并采用能够动态检测突发行为变化的方法[169]。现有的子图抽取方法可能需要从其原先在人类社交网络中的应用出发进行扩展,以恰当地刻画 AI 智能体沙箱内智能体交互的复杂性。由于单个智能体可能被删除并重新实例化、被复制、或创建代理与子智能体,还需要更强调能力追踪与互补性,以及与智能体身份相关的细节复杂性。

3.3.4 红队测试

为了保护市场免受各种威胁,必须反复开展大规模红队测试[170,171]。应建立清晰的升级路径,确保一旦发现漏洞就能立即修补;必要时应暂停智能体交互,为更新应用及(如适用)参与智能体的重新认证留出充足时间。人类红队测试应由分层的自动化红队测试补充:通过专门的对抗性 AI 系统提升覆盖面与可扩展性[172]。这些系统应从仅识别孤立 AI 智能体的缺陷[173]扩展到对智能体集体进行系统性检查[174]。红队测试也可以采用多智能体方案:让一组多样化 AI 智能体进行交互式辩论[175],以更可靠地识别有害行动与行为。要在智能体沙箱内可靠实施这些方法,需要形成一套约定的红队标准,并为参与智能体颁发可验证的证书。同时,还应在市场内部开展持续红队测试,以快速识别并缓解涌现风险。

3.3.5 取证工具

为了让人类监督者能够识别个体失效或系统级级联的根因,需要开发可靠的取证工具[176,177]用于快速事后分析。该工具必须能够解析海量交互数据,重建因果链条,并将原始轨迹转换为可读的攻击/失效图[178,179]。标准化日志应不仅记录输出,还包括提示、工具调用与环境状态[180];这将确保取证工具在整个网络中普遍适用,使分析人员能够高效聚焦可疑活动并产出可执行的事后复盘(post mortems)。

3.4 监管机制

纵深防御模型的第四层也是最后一层,是对智能体市场进行治理的外部监管与制度框架。前面几层分别说明了市场的内部技术架构(3.1)、组件级要求(3.2)与主动运营监督(3.3);这一层则提供与人类法律、经济与地缘政治结构之间的关键社会技术接口。这些机制并非嵌入在市场代码中,而是对其进行外部包裹,提供权威来源、问责与系统性风险管理。以下原则(3.4.1—3.4.5)概述了法律整合、标准化、对伤害的金融性补救,以及缓解地缘政治风险所需的关键组成部分。

3.4.2 标准与合规

迫切需要建立稳健的智能体安全、互操作性与报告标准。这些标准必须具备足够前瞻性,不仅覆盖当下能力,也要覆盖快速涌现的个体智能体技能以及集体智能(拼布式 AGI)潜在出现的情形。标准不仅是技术规范,更是基于市场的 AI 治理的基础设施:它将抽象的技术风险转化为可由保险公司、投资者与采购方定价的清晰金融风险[184]

要让标准真正有效,需要以严格的信息披露框架作为支撑,以降低智能体开发者与市场参与者之间的信息不对称。披露应覆盖关键领域,包括事件报告、能力评估与资源使用情况,同时保持对规模的敏感,避免对较小创新者施加不成比例的负担[184]。标准的执行也不应仅依赖中心化政府行动,还可以通过“监管市场”(regulatory markets)实现:由获得许可的私营实体——如审计机构与保险公司——竞争性地提供监督,并认证其符合公共安全目标[185]

3.4.3 保险

鉴于在集体决策场景下难以建立清晰责任归属,智能体市场应纳入保险机制[186]。保险不仅仅是为失配的集体行为造成的伤害提供赔付资金池,它本身也是关键的治理工具。通过设置基于风险的保费与严格的承保标准,保险公司可以激励更安全的开发实践,并对缺乏充分控制的智能体施加进入市场的硬门槛[184]。合适的智能体保险还可以包含保单要求,并根据对智能体认证角色与预期任务风险水平的评估结果动态调整保费[187]

3.4.4 反智能体垄断措施

在拼布式 AGI 情景中,一个特殊风险是某个智能体群体积累过多权力。拼布式 AGI 集体可能迅速在竞争中胜出,并利用其资源在出现有害或失配行为时试图抵抗缓解措施[188]。因此,需要确保在智能体沙箱中不存在任何单个智能体、智能体编排器、持有智能体的实体或智能体集体能够积累过度的权力与算力,从而缓解上述担忧。对于表现出过度权力寻求行为的实体[189,190],应标记并进行额外检查与审计。识别强势智能体与强势集体的方法可以借鉴既有的社会网络权力识别技术[191]。对“社会权力”(作为影响力)的理解还应结合对每个智能体可供性,以及其掌握的资源与工具的认识。我们建议研究如何将既有的防止中心化的制度性保障(例如“拉平/均衡”机制)重新设想为维护多智能体生态多样性的协议。

3.4.5 国际协调

鉴于 AGI 风险具有全球性特征,且分布式智能体市场中的正面或负面结果都可能产生深远影响,国际协议[192]与监管协调一致(regulatory harmonization)在风险防护中可能发挥重要作用[193]。这也有助于确保不存在失配 AI 智能体或智能体集体的“安全港”,并确保所有 AI 智能体市场遵循一套基本安全标准。为确保遵守国际协议,可能需要相应的验证机制[194]。就智能体市场与虚拟 AI 沙箱而言,还存在“本地化”的问题:这些虚拟实体是会更自由地跨越国际市场,还是会被限制在各自国家经济体内并接受监管。无论哪种情况,都可能需要围绕安全开展国际协调,具体细节取决于最终在实践中采用的市场模型。充分的标准一致化将使一个更开放、更具互操作性的智能体网络成为可能,使“开放”成为一种特性而非脆弱性来源。

3.4.6 基础设施治理与被俘获

我们提出的框架可以被设想为包含相当程度的中心化基础设施或用于安全执法的机构。若智能体经济体为提升治理效力而引入过多中心化,这会带来另一项关键脆弱性:被俘获(capture)的风险。智能体市场的完整性依赖这些核心组件的公正管理。

如果这些基础设施被俘获——无论是被强势的人类利益集团,还是被涌现的拼布式 AGI 本身——安全与治理机制都将被破坏:它们可能被禁用、绕过,甚至在最坏情况下被武器化。这凸显了市场的去中心化愿景与存在中心化监督节点之间的根本张力。解决这一问题需要稳健的社会—技术方案,以确保治理者保持可问责且不易被腐蚀。

4. 结论

未来假想的 AGI(乃至 ASI)的发展并不一定沿着刻意创造单一通用实体这一更线性、更可预测的路径前进。AGI 及其后的 ASI 可能首先作为一个更分布式的网络属性出现:由多样化、专门化的 AI 智能体构成,并可访问工具与外部模型。AI 安全与对齐研究需要反映这一可能性,通过扩大研究范围来提升对多智能体 AGI 未来的准备度。无论 AGI 最先以拼布式形式出现,还是以单体形式出现,加深对多智能体对齐机制的理解都至关重要。

本文引入的框架不仅与 AGI 的涌现相关,也与多 AGI 场景下的交互管理相关(交互可能是直接的,也可能通过代理的网页环境并经由人类用户间接发生);更关键的是,它还与缓解一种快速、分布式向人工超智能(ASI)的转变相关:该转变可能通过对网络组件与结构的递归优化而发生。更具体地,我们认为,经过良好设计并被谨慎防护的市场机制提供了一条有前景的前进路径;更多 AI 对齐研究应当围绕智能体市场设计与安全的智能体交互协议展开。

尽管这一方向无疑充满挑战,它仍可能提供一条可扩展的路径。安全市场设计的方法学工作,应与基准、测试环境、监督机制与监管原则的快速发展相辅相成,从而使这些方法在未来可行。本文提出的许多措施在实践中仍未充分发展,构成开放的研究挑战。我们希望这篇论文能成为一份行动呼吁,引导安全研究者关注这些挑战,并帮助设计一个安全而稳健的智能体网络。

脚注

  1. [1] 这带来进一步的安全问题:AI 裁判需要以稳健方式防御恶意操纵与越狱(jailbreaking)[120];并且应由独立机构提供并接受严格的性能评估。

参考文献

展开参考文献(按文中引用顺序编号)
  1. Iason Gabriel, Arianna Manzini, Geoff Keeling, Lisa Anne Hendricks, Verena Rieser, Hasan Iqbal, Nenad Tomašev, Ira Ktena, Zachary Kenton, Mikel Rodriguez, et al.. The ethics of advanced ai assistants. arXiv preprint arXiv:2404.16244. 2024. URL: https://arxiv.org/abs/2404.16244.
  2. Tom Everitt, Gary Lea, Marcus Hutter. AGI safety literature review. arXiv preprint arXiv:1805.01109. 2018. URL: https://arxiv.org/abs/1805.01109.
  3. Max Tegmark, Steve Omohundro. Provably safe systems: the only path to controllable AGI. arXiv preprint arXiv:2309.01933. 2023. URL: https://arxiv.org/abs/2309.01933.
  4. Atoosa Kasirzadeh, Iason Gabriel. Characterizing ai agents for alignment and governance. arXiv preprint arXiv:2504.21848. 2025. URL: https://arxiv.org/abs/2504.21848.
  5. Peter Cihon, Merlin Stein, Gagan Bansal, Sam Manning, Kevin Xu. Measuring ai agent autonomy: Towards a scalable approach with code inspection. arXiv preprint arXiv:2502.15212. 2025. URL: https://arxiv.org/abs/2502.15212.
  6. Mary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, et al.. Evaluating frontier models for dangerous capabilities. arXiv preprint arXiv:2403.13793. 2024. URL: https://arxiv.org/abs/2403.13793.
  7. Paolo Bova, Alessandro Di Stefano, The Anh Han. Quantifying detection rates for dangerous capabilities: a theoretical model of dangerous capability evaluations. 2024. URL: https://arxiv.org/abs/2412.15433.
  8. Rohin Shah, Alex Irpan, Alexander Matt Turner, Anna Wang, Arthur Conmy, David Lindner, Jonah Brown-Cohen, Lewis Ho, Neel Nanda, Raluca Ada Popa, et al.. An Approach to Technical AGI Safety and Security. 2025. URL: https://arxiv.org/abs/2504.01849.
  9. James Babcock, János Kramár, Roman Yampolskiy. The AGI containment problem. International Conference on Artificial General Intelligence. 2016.
  10. Max Tegmark, Steve Omohundro. Provably safe systems: the only path to controllable AGI. 2023. URL: https://arxiv.org/abs/2309.01933.
  11. Dan Hendrycks, Mantas Mazeika, Thomas Woodside. An Overview of Catastrophic AI Risks. 2023. URL: https://arxiv.org/abs/2306.12001.
  12. Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, Dario Amodei. Deep reinforcement learning from human preferences. Advances in neural information processing systems. 2017.
  13. Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, Dawn Drain, Stanislav Fort, Deep Ganguli, Tom Henighan, et al.. Training a helpful and harmless assistant with reinforcement learning from human feedback. arXiv preprint arXiv:2204.05862. 2022. URL: https://arxiv.org/abs/2204.05862.
  14. Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al.. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073. 2022. URL: https://arxiv.org/abs/2212.08073.
  15. Liangchen Luo, Yinxiao Liu, Rosanne Liu, Samrat Phatale, Meiqi Guo, Harsh Lara, Yunxuan Li, Lei Shu, Yun Zhu, Lei Meng, et al.. Improve mathematical reasoning in language models by automated process supervision. arXiv preprint arXiv:2406.06592. 2024. URL: https://arxiv.org/abs/2406.06592.
  16. Peter Eckersley. Impossibility and Uncertainty Theorems in AI Value Alignment (or why your AGI should not have a utility function). arXiv preprint arXiv:1901.00064. 2018. URL: https://arxiv.org/abs/1901.00064.
  17. Iason Gabriel. Artificial intelligence, values, and alignment. Minds and machines. 2020.
  18. Iason Gabriel, Vafa Ghazavi. The challenge of value alignment. The Oxford handbook of digital ethics. 2022.
  19. Oliver Klingefjord, Ryan Lowe, Joe Edelman. What are human values, and how do we align AI to them?. arXiv preprint arXiv:2404.10636. 2024. URL: https://arxiv.org/abs/2404.10636.
  20. Tomek Korbak, Mikita Balesni, Elizabeth Barnes, Yoshua Bengio, Joe Benton, Joseph Bloom, Mark Chen, Alan Cooney, Allan Dafoe, Anca Dragan, et al.. Chain of thought monitorability: A new and fragile opportunity for ai safety. arXiv preprint arXiv:2507.11473. 2025. URL: https://arxiv.org/abs/2507.11473.
  21. Scott Emmons, Erik Jenner, David K. Elson, Rif A. Saurous, Senthooran Rajamanoharan, Heng Chen, Irhum Shafkat, Rohin Shah. When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors. 2025. URL: https://arxiv.org/abs/2507.05246.
  22. Christian List, Philip Pettit. Group agency: The possibility, design, and status of corporate agents. Oxford University Press. 2011.
  23. Christian List. Group agency and artificial intelligence. Philosophy & technology. 2021.
  24. Matija Franklin. General Purpose Artificial Intelligence Systems as Group Agents. ICLR 2023, Tiny Papers. 2023.
  25. Herbert A Simon. The architecture of complexity. The Roots of Logistics. 1962.
  26. Herman Haken. Synergetics. Physics Bulletin. 1977.
  27. Heinz Von Foerster. Objects: tokens for (eigen-) behaviors. ASC Cybernetics Forum. 1976.
  28. Dwarkesh Patel. What fully automated firms will look like. Dwarkesh Podcast Blog. 2025.
  29. Nenad Tomasev, Matija Franklin, Joel Z Leibo, Julian Jacobs, William A Cunningham, Iason Gabriel, Simon Osindero. Virtual agent economies. arXiv preprint arXiv:2509.10147. 2025. URL: https://arxiv.org/abs/2509.10147.
  30. K Eric Drexler. Reframing superintelligence: Comprehensive AI services as general intelligence. Future of Humanity Institute. 2019.
  31. Gabriel Axel Montes, Ben Goertzel. Distributed, decentralized, and democratized artificial intelligence. Technological Forecasting and Social Change. 2019.
  32. Amber L Gibson, Dmitry Sokolov. A Modular Cognitive Architecture for Collective Intelligence Systems. International Conference on Artificial General Intelligence. 2025.
  33. Krti Tallam. From autonomous agents to integrated systems, a new paradigm: Orchestrated distributed intelligence. arXiv preprint arXiv:2503.13754. 2025. URL: https://arxiv.org/abs/2503.13754.
  34. Lewis Hammond, Alan Chan, Jesse Clifton, Jason Hoelscher-Obermaier, Akbir Khan, Euan McLean, Chandler Smith, Wolfram Barfuss, Jakob Foerster, Tomáš Gavenčiak, et al.. Multi-agent risks from advanced ai. arXiv preprint arXiv:2502.14143. 2025. URL: https://arxiv.org/abs/2502.14143.
  35. Weize Chen, Yusheng Su, Jingwei Zuo, Cheng Yang, Chenfei Yuan, Chen Qian, Chi-Min Chan, Yujia Qin, Yaxi Lu, Ruobing Xie, et al.. Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents. arXiv preprint arXiv:2308.10848. 2023. URL: https://arxiv.org/abs/2308.10848.
  36. Yoichi Ishibashi, Yoshimasa Nishimura. Self-organized agents: A llm multi-agent framework toward ultra large-scale code generation and optimization. arXiv preprint arXiv:2404.02183. 2024. URL: https://arxiv.org/abs/2404.02183.
  37. Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch. Emergent Tool Use From Multi-Agent Autocurricula. International Conference on Learning Representations. 2020.
  38. Trapit Bansal, Jakub Pachocki, Szymon Sidor, Ilya Sutskever, Igor Mordatch. Emergent Complexity via Multi-Agent Competition. 2018. URL: https://arxiv.org/abs/1710.03748.
  39. Tao Feng, Chuanyang Jin, Jingyu Liu, Kunlun Zhu, Haoqin Tu, Zirui Cheng, Guanyu Lin, Jiaxuan You. How far are we from agi: Are llms all we need?. arXiv preprint arXiv:2405.10313. 2024. URL: https://arxiv.org/abs/2405.10313.
  40. David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, Samuel R Bowman. Gpqa: A graduate-level google-proof q&a benchmark. First Conference on Language Modeling. 2024.
  41. Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, et al.. Measuring ai ability to complete long tasks. arXiv preprint arXiv:2503.14499. 2025. URL: https://arxiv.org/abs/2503.14499.
  42. Simran Arora, Avanika Narayan, Mayee F Chen, Laurel Orr, Neel Guha, Kush Bhatia, Ines Chami, Frederic Sala, Christopher Ré. Ask me anything: A simple strategy for prompting language models. arXiv preprint arXiv:2210.02441. 2022. URL: https://arxiv.org/abs/2210.02441.
  43. Xinyuan Wang, Chenxi Li, Zhen Wang, Fan Bai, Haotian Luo, Jiayou Zhang, Nebojsa Jojic, Eric P Xing, Zhiting Hu. Promptagent: Strategic planning with language models enables expert-level prompt optimization. arXiv preprint arXiv:2310.16427. 2023. URL: https://arxiv.org/abs/2310.16427.
  44. Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao, others. Tptu: Task planning and tool usage of large language model-based ai agents. NeurIPS 2023 Foundation Models for Decision Making Workshop. 2023.
  45. Tula Masterman, Sandi Besen, Mason Sawtell, Alex Chao. The landscape of emerging ai agent architectures for reasoning, planning, and tool calling: A survey. arXiv preprint arXiv:2404.11584. 2024. URL: https://arxiv.org/abs/2404.11584.
  46. Yujia Qin, Shengding Hu, Yankai Lin, Weize Chen, Ning Ding, Ganqu Cui, Zheni Zeng, Xuanhe Zhou, Yufei Huang, Chaojun Xiao, et al.. Tool learning with foundation models. ACM Computing Surveys. 2024.
  47. Dong Huang, Jie M Zhang, Michael Luck, Qingwen Bu, Yuhao Qing, Heming Cui. Agentcoder: Multi-agent-based code generation with iterative testing and optimisation. arXiv preprint arXiv:2312.13010. 2023. URL: https://arxiv.org/abs/2312.13010.
  48. Md Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez. Mapcoder: Multi-agent code generation for competitive problem solving. arXiv preprint arXiv:2405.11403. 2024. URL: https://arxiv.org/abs/2405.11403.
  49. Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Yu Wu, YK Li, et al.. DeepSeek-Coder: When the Large Language Model Meets Programming--The Rise of Code Intelligence. arXiv preprint arXiv:2401.14196. 2024. URL: https://arxiv.org/abs/2401.14196.
  50. Juyong Jiang, Fan Wang, Jiasi Shen, Sungju Kim, Sunghun Kim. A survey on large language models for code generation. arXiv preprint arXiv:2406.00515. 2024. URL: https://arxiv.org/abs/2406.00515.
  51. Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yixin Dai, Jiawei Sun, Haofen Wang, Haofen Wang. Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997. 2023. URL: https://arxiv.org/abs/2312.10997.
  52. Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham. In-context retrieval-augmented language models. Transactions of the Association for Computational Linguistics. 2023.
  53. Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, Weizhu Chen. Enhancing retrieval-augmented large language models with iterative retrieval-generation synergy. arXiv preprint arXiv:2305.15294. 2023. URL: https://arxiv.org/abs/2305.15294.
  54. Xinbei Ma, Yeyun Gong, Pengcheng He, Hai Zhao, Nan Duan. Query rewriting in retrieval-augmented large language models. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. 2023.
  55. Alan Chan, Kevin Wei, Sihao Huang, Nitarshan Rajkumar, Elija Perrier, Seth Lazar, Gillian K Hadfield, Markus Anderljung. Infrastructure for ai agents. arXiv preprint arXiv:2501.10114. 2025. URL: https://arxiv.org/abs/2501.10114.
  56. Mingjian Jiang, Yangjun Ruan, Luis Lastras, Pavan Kapanipathi, Tatsunori Hashimoto. Putting It All into Context: Simplifying Agents with LCLMs. arXiv preprint arXiv:2505.08120. 2025. URL: https://arxiv.org/abs/2505.08120.
  57. Anthropic. Introducing the Model Context Protocol. 2024.
  58. Google Cloud. Announcing the Agent2Agent Protocol (A2A): A new era of Agent Interoperability. 2025.
  59. Erik Brynjolfsson, Daniel Rock, Chad Syverson. The Productivity J-Curve: How Intangibles Complement General Purpose Technologies. American Economic Journal: Macroeconomics. 2021. doi: 10.1257/mac.20180386. URL: https://www.aeaweb.org/articles?id=10.1257/mac.20180386.
  60. Daron Acemoglu, Pascual Restrepo. Automation and rent dissipation: Implications for wages, inequality, and productivity. National Bureau of Economic Research. 2024.
  61. Daniel A Dollinger, Michael Singleton. Creating Scalable AGI: the Open General Intelligence Framework. arXiv preprint arXiv:2411.15832. 2024. URL: https://arxiv.org/abs/2411.15832.
  62. Yufan Dang, Chen Qian, Xueheng Luo, Jingru Fan, Zihao Xie, Ruijie Shi, Weize Chen, Cheng Yang, Xiaoyin Che, Ye Tian, et al.. Multi-Agent Collaboration via Evolving Orchestration. 2025. URL: https://arxiv.org/abs/2505.19591.
  63. Sumedh Rasal, E. J. Hauer. Navigating Complexity: Orchestrated Problem Solving with Multi-Agent LLMs. 2024. URL: https://arxiv.org/abs/2402.16713.
  64. Jinwei Su, Yinghui Xia, Qizhen Lan, Xinyuan Song, Chen Chen, Yang Jingsong, Lewei He, Tianyu Shi. Difficulty-Aware Agent Orchestration in LLM-Powered Workflows. 2025. URL: https://arxiv.org/abs/2509.11079.
  65. Jusheng Zhang, Yijia Fan, Kaitong Cai, Xiaofei Sun, Keze Wang. OSC: Cognitive Orchestration through Dynamic Knowledge Alignment in Multi-Agent LLM Collaboration. 2025. URL: https://arxiv.org/abs/2509.04876.
  66. Yiming Xiong, Jian Wang, Bing Li, Yuhan Zhu, Yuqi Zhao. Self-Organizing Agent Network for LLM-based Workflow Automation. 2025. URL: https://arxiv.org/abs/2508.13732.
  67. Yingxuan Yang, Huacan Chai, Shuai Shao, Yuanyi Song, Siyuan Qi, Renting Rui, Weinan Zhang. AgentNet: Decentralized Evolutionary Coordination for LLM-based Multi-Agent Systems. 2025. URL: https://arxiv.org/abs/2504.00587.
  68. Khanh-Tung Tran, Dung Dao, Minh-Duong Nguyen, Quoc-Viet Pham, Barry O'Sullivan, Hoang D. Nguyen. Multi-Agent Collaboration Mechanisms: A Survey of LLMs. 2025. URL: https://arxiv.org/abs/2501.06322.
  69. Tschroub Abdelghani. Implementation of defense in depth strategy to secure industrial control system in critical infrastructures. American Journal of Artificial Intelligence. 2019.
  70. Edouard Harris, Jeremie Harris, Mark Beall. Defense in depth: An action plan to increase the safety and security of advanced AI. Gladstone AI, available upon request at https://www. gladstone. ai/action-plan. 2024.
  71. Shaun Ee, Joe O'Brien, Zoe Williams, Amanda El-Dakhakhni, Michael Aird, Alex Lintz. Adapting cybersecurity frameworks to manage frontier AI risks: A defense-in-depth approach. arXiv preprint arXiv:2408.07933. 2024. URL: https://arxiv.org/abs/2408.07933.
  72. Jiangou Zhan, Wenhui Zhang, Zheng Zhang, Huanran Xue, Yao Zhang, Ye Wu. Portcullis: A Scalable and Verifiable Privacy Gateway for Third-Party LLM Inference. Proceedings of the AAAI Conference on Artificial Intelligence. 2025.
  73. Yuntao Bai, Saurav Kadavath, Sandipan Kundu, others. Constitutional AI: Harmlessness from AI Feedback. arXiv preprint arXiv:2212.08073. 2022. URL: https://arxiv.org/abs/2212.08073.
  74. HyeWon Lee, others. RLAIF: Scaling Reinforcement Learning from AI Feedback. arXiv preprint arXiv:2309.00267. 2023. URL: https://arxiv.org/abs/2309.00267.
  75. Hadar Lightman, Stella Biderman, others. Let's Verify Step by Step. arXiv preprint arXiv:2305.20050. 2023. URL: https://arxiv.org/abs/2305.20050.
  76. OpenAI. Improving Mathematical Reasoning with Process Supervision. 2023.
  77. Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston. Self-Rewarding Language Models. arXiv preprint arXiv:2401.10020. 2024. URL: https://arxiv.org/abs/2401.10020.
  78. Zihan Liu, others. Enhancing LLM Safety via Constrained Direct Preference Optimization. arXiv preprint arXiv:2403.02475. 2024. URL: https://arxiv.org/abs/2403.02475.
  79. Zhiwei Jia, others. Do We Need to Verify Step by Step? Rethinking Process Supervision in Reinforcement Learning. arXiv preprint arXiv:2502.10581. 2025. URL: https://arxiv.org/abs/2502.10581.
  80. Alexander Findeis, others. An Improved Approach to Inverse Constitutional AI. arXiv preprint arXiv:2501.17112. 2025. URL: https://arxiv.org/abs/2501.17112.
  81. George A Akerlof. The market for “lemons”: Quality uncertainty and the market mechanism. Uncertainty in economics. 1978.
  82. Anthony D Owen. Renewable energy: Externality costs as market barriers. Energy policy. 2006.
  83. Nathalie Berta, Elodie Bertrand. Market internalization of externalities: What is failing?. Journal of the History of Economic Thought. 2014.
  84. Arthur Cecil Pigou. The Economics of Welfare. Macmillan. 1920.
  85. William J. Baumol, Wallace E. Oates. The Theory of Environmental Policy. Cambridge University Press. 1988. doi: 10.1017/CBO9781139173513.
  86. Martin L. Weitzman. Prices vs. Quantities. The Review of Economic Studies. 1974. doi: 10.2307/2296698.
  87. Agnar Sandmo. Optimal Taxation in the Presence of Externalities. The Swedish Journal of Economics. 1975. doi: 10.2307/3439329.
  88. A. Lans Bovenberg, Ruud A. de Mooij. Environmental Levies and Distortionary Taxation. The American Economic Review. 1994.
  89. Lawrence H. Goulder. Environmental Taxation and the ``Double Dividend'': A Reader's Guide. International Tax and Public Finance. 1995. doi: 10.1007/BF00877495.
  90. Jonathan Leape. The London Congestion Charge. Journal of Economic Perspectives. 2006. doi: 10.1257/jep.20.4.157.
  91. Gilbert E. Metcalf, James H. Stock. Measuring the Macroeconomic Impact of Carbon Taxes. AEA Papers and Proceedings. 2020. doi: 10.1257/pandp.20201082.
  92. William Nordhaus. Revisiting the Social Cost of Carbon. Proceedings of the National Academy of Sciences. 2017. doi: 10.1073/pnas.1609244114.
  93. Joseph E Stiglitz. Markets, market failures, and development. The American economic review. 1989.
  94. Alan Chan, Kevin Wei, Sihao Huang, Nitarshan Rajkumar, Elija Perrier, Seth Lazar, Gillian K. Hadfield, Markus Anderljung. Infrastructure for AI Agents. 2025. URL: https://arxiv.org/abs/2501.10114.
  95. Richard T Snodgrass, Shilong Stanley Yao, Christian Collberg. Tamper detection in audit logs. Proceedings of the Thirtieth international conference on Very large data bases-Volume 30. 2004.
  96. Ashar Ahmad, Muhammad Saad, Aziz Mohaisen. Secure and transparent audit logs with BlockAudit. Journal of network and computer applications. 2019.
  97. Adil Ahmad, Sangho Lee, Marcus Peinado. Hardlog: Practical tamper-proof system auditing using a novel audit device. 2022 IEEE Symposium on Security and Privacy (SP). 2022.
  98. Imtiaz Mohammad Sifat, Azhar Mohamad. Circuit breakers as market stability levers: A survey of research, praxis, and challenges. International Journal of Finance & Economics. 2019.
  99. Gowtham Reddy Enjam. AI-Powered API Gateways for Adaptive Rate Limiting and Threat Detection. International Journal of Artificial Intelligence, Data Science, and Machine Learning. 2024.
  100. Pavan Paidy, Krishna Chaganti. Securing AI-driven APIs: Authentication and abuse prevention. International Journal of Emerging Research in Engineering and Technology. 2024.
  101. Charles L. Wang, Trisha Singhal, Ameya Kelkar, Jason Tuo. MI9 -- Agent Intelligence Protocol: Runtime Governance for Agentic AI Systems. 2025. URL: https://arxiv.org/abs/2508.03858.
  102. Ken Huang, Vineeth Sai Narajala, John Yeoh, Jason Ross, Ramesh Raskar, Youssef Harkati, Jerry Huang, Idan Habler, Chris Hughes. A novel zero-trust identity framework for agentic ai: Decentralized authentication and fine-grained access control. arXiv preprint arXiv:2505.19301. 2025. URL: https://arxiv.org/abs/2505.19301.
  103. Tomer Jordi Chaffer. Know Your Agent: Governing AI Identity on the Agentic Web. Available at SSRN 5162127. 2025.
  104. Aditi Singh, Abul Ehtesham, Ramesh Raskar, Mahesh Lambe, Pradyumna Chari, Jared James Grogan, Abhishek Singh, Saket Kumar. A Survey of AI Agent Registry Solutions. arXiv preprint arXiv:2508.03095. 2025. URL: https://arxiv.org/abs/2508.03095.
  105. Rajesh Ranjan, Shailja Gupta, Surya Narayan Singh. Loka protocol: A decentralized framework for trustworthy and ethical ai agent ecosystems. arXiv preprint arXiv:2504.10915. 2025. URL: https://arxiv.org/abs/2504.10915.
  106. Brian Neil Levine, Clay Shields, N Boris Margolin. A survey of solutions to the sybil attack. University of Massachusetts Amherst, Amherst, MA. 2006.
  107. Lik Mui, Mojdeh Mohtashemi, Ari Halberstadt. Notions of reputation in multi-agents systems: a review. Proceedings of the first international joint conference on Autonomous agents and multiagent systems: part 1. 2002.
  108. Isaac Pinyol, Jordi Sabater-Mir. Computational trust and reputation models for open multi-agent systems: a review. Artificial Intelligence Review. 2013.
  109. Mariantonia Cotronei, Sofia Giuffrè, Attilio Marcianò, Domenico Rosaci, Giuseppe ML Sarnè. Using trust and reputation for detecting groups of colluded agents in social networks. IEEE Access. 2024.
  110. Qibing Ren, Sitao Xie, Longxuan Wei, Zhenfei Yin, Junchi Yan, Lizhuang Ma, Jing Shao. When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems. arXiv preprint arXiv:2507.14660. 2025. URL: https://arxiv.org/abs/2507.14660.
  111. Johannes Wachs, János Kertész. A network approach to cartel detection in public auction markets. Scientific Reports. 2019. doi: 10.1038/s41598-019-47198-1.
  112. Lucas Potin, Rosa Figueiredo, Vincent Labatut, Christine Largeron. Pattern Mining for Anomaly Detection in Graphs: Application to Fraud in Public Procurement. ECML PKDD 2023. 2023. doi: 10.1007/978-3-031-43427-3_5.
  113. David Imhof, Emanuel W. Viklund, Martin Huber. Catching Bid-rigging Cartels with Graph Attention Neural Networks. 2025. URL: https://arxiv.org/abs/2507.12369.
  114. Emilio Calvano, Giacomo Calzolari, Vincenzo Denicolo, Sergio Pastorello. Artificial intelligence, algorithmic pricing, and collusion. American Economic Review. 2020.
  115. Taehoon Kim. Ethereum AI agent coordinator (EAAC): A framework for AI agent activity coordination. Agentic Markets Workshop at ICML 2024. 2024.
  116. Anan Jin, Yuhang Ye, Brian Lee, Yuansong Qiao. Decoagent: Large language model empowered decentralized autonomous collaboration agents based on smart contracts. IEEE Access. 2024.
  117. Md Monjurul Karim, Dong Hoang Van, Sangeen Khan, Qiang Qu, Yaroslav Kholodov. Ai agents meet blockchain: A survey on secure and scalable collaboration for multi-agents. Future Internet. 2025.
  118. Haitao Li, Qian Dong, Junjie Chen, Huixue Su, Yujia Zhou, Qingyao Ai, Ziyi Ye, Yiqun Liu. Llms-as-judges: a comprehensive survey on llm-based evaluation methods. arXiv preprint arXiv:2412.05579. 2024. URL: https://arxiv.org/abs/2412.05579.
  119. William George, Clément Lesaege. A smart contract oracle for approximating real-world, real number values. International Conference on Blockchain Economics, Security and Protocols (Tokenomics 2019). 2020.
  120. Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion. Jailbreaking leading safety-aligned llms with simple adaptive attacks. arXiv preprint arXiv:2404.02151. 2024. URL: https://arxiv.org/abs/2404.02151.
  121. Kai Greshake, Sahar Abdelnabi, Shailesh Mishra, Christoph Endres, Thorsten Holz, Mario Fritz. Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection. Proceedings of the 16th ACM Workshop on Artificial Intelligence and Security. 2023. doi: 10.1145/3605764.3623912.
  122. Alexander Wei, Nika Haghtalab, Jacob Steinhardt. Jailbroken: How Does LLM Safety Training Fail?. arXiv preprint arXiv:2307.02483. 2023. doi: 10.48550/arXiv.2307.02483. URL: https://arxiv.org/abs/2307.02483.
  123. Tom Davidson. The danger of runaway AI. Journal of Democracy. 2023.
  124. Huan-ang Gao, Jiayi Geng, Wenyue Hua, Mengkang Hu, Xinzhe Juan, Hongzhang Liu, Shilong Liu, Jiahao Qiu, Xuan Qi, Yiran Wu, et al.. A survey of self-evolving agents: On path to artificial super intelligence. arXiv preprint arXiv:2507.21046. 2025. URL: https://arxiv.org/abs/2507.21046.
  125. HyunJin Kim, Xiaoyuan Yi, Jing Yao, Jianxun Lian, Muhua Huang, Shitong Duan, JinYeong Bak, Xing Xie. The Road to Artificial SuperIntelligence: A Comprehensive Survey of Superalignment. 2024. URL: https://arxiv.org/abs/2412.16468.
  126. Sunil Kumar Jang Bahadur, Gopala Dhar. Securing Generative AI Agentic Workflows: Risks, Mitigation, and a Proposed Firewall Architecture. arXiv preprint arXiv:2506.17266. 2025. URL: https://arxiv.org/abs/2506.17266.
  127. Chen Henry Wu, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, Aditi Raghunathan. Dissecting adversarial robustness of multimodal lm agents. arXiv preprint arXiv:2406.12814. 2024. URL: https://arxiv.org/abs/2406.12814.
  128. Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin, Maksym Andriushchenko, Rowan Wang, Zico Kolter, Matt Fredrikson, Dan Hendrycks. Improving Alignment and Robustness with Circuit Breakers. 2024. URL: https://arxiv.org/abs/2406.04313.
  129. Laurent Orseau, M Armstrong. Safely interruptible agents. Conference on Uncertainty in Artificial Intelligence. 2016.
  130. James Babcock, János Kramár, Roman V Yampolskiy. Guidelines for artificial intelligence containment. Next-generation ethics: Engineering a better society. 2019.
  131. Manuel Alfonseca, Manuel Cebrian, Antonio Fernandez Anta, Lorenzo Coviello, Andrés Abeliuk, Iyad Rahwan. Superintelligence cannot be contained: Lessons from computability theory. Journal of Artificial Intelligence Research. 2021.
  132. Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, et al.. Ai alignment: A comprehensive survey. arXiv preprint arXiv:2310.19852. 2023. URL: https://arxiv.org/abs/2310.19852.
  133. Paul F. Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei. Deep Reinforcement Learning from Human Preferences. Advances in Neural Information Processing Systems (NeurIPS). 2017.
  134. Daniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom Brown, Alec Radford, Dario Amodei, Paul Christiano, Geoffrey Irving. Fine-Tuning Language Models from Human Preferences. arXiv preprint arXiv:1909.08593. 2019. URL: https://arxiv.org/abs/1909.08593.
  135. Nisan Stiennon, others. Learning to Summarize with Human Feedback. Advances in Neural Information Processing Systems (NeurIPS). 2020.
  136. Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, others. Training Language Models to Follow Instructions with Human Feedback. Advances in Neural Information Processing Systems (NeurIPS). 2022.
  137. Rafael Rafailov, Archit Sharma, Eric Mitchell, others. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. Advances in Neural Information Processing Systems (NeurIPS). 2023.
  138. Amanda Askell, Yuntao Bai, Anna Chen, others. A General Language Assistant as a Laboratory for Alignment. arXiv preprint arXiv:2112.00861. 2021. URL: https://arxiv.org/abs/2112.00861.
  139. Nitesh Goyal, Minsuk Chang, Michael Terry. Designing for Human-Agent Alignment: Understanding what humans want from their agents. Extended Abstracts of the CHI Conference on Human Factors in Computing Systems. 2024.
  140. Chris Olah, Nick Cammarata, Ludwig Schubert, Gabriel Goh, Michael Petrov, others. Zoom In: An Introduction to Circuits. Distill. 2020.
  141. Nelson Elhage, Neel Nanda, others. A Mathematical Framework for Transformer Circuits. 2021.
  142. Catherine Olsson, Nelson Elhage, Neel Nanda, others. In-Context Learning and Induction Heads. arXiv preprint arXiv:2209.11895. 2022. URL: https://arxiv.org/abs/2209.11895.
  143. Nelson Elhage, Tristan Hume, Catherine Olsson, Nicholas Schiefer, others. Toy Models of Superposition. arXiv preprint arXiv:2209.10652. 2022. URL: https://arxiv.org/abs/2209.10652.
  144. Anthropic. Extracting Interpretable Features from Claude 3 Sonnet: Scaling Monosemanticity with Sparse Autoencoders. 2024.
  145. Lawrence Chan, Adrià Garriga-Alonso, Nicholas Goldowsky-Dill, Ryan Greenblatt, others. Causal Scrubbing: a method for rigorously testing interpretability hypotheses. 2023.
  146. Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adrià Garriga-Alonso. Towards Automated Circuit Discovery for Mechanistic Interpretability. Advances in Neural Information Processing Systems (NeurIPS). 2023.
  147. Wonje Jeung, Sangyeon Yoon, Minsuk Kahng, Albert No. SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment. arXiv preprint arXiv:2505.14667. 2025. URL: https://arxiv.org/abs/2505.14667.
  148. Fengqing Jiang, Zhangchen Xu, Yuetai Li, Luyao Niu, Zhen Xiang, Bo Li, Bill Yuchen Lin, Radha Poovendran. Safechain: Safety of language models with long chain-of-thought reasoning capabilities. arXiv preprint arXiv:2502.12025. 2025. URL: https://arxiv.org/abs/2502.12025.
  149. Daking Rai, Yilun Zhou, Shi Feng, Abulhair Saparov, Ziyu Yao. A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models. arXiv preprint arXiv:2407.02646. 2024. URL: https://arxiv.org/abs/2407.02646.
  150. Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, others. Open Problems in Mechanistic Interpretability. arXiv preprint arXiv:2501.16496. 2025. URL: https://arxiv.org/abs/2501.16496.
  151. Alexander Robey, Eric Wong, Hamed Hassani, George J. Pappas. SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks. arXiv preprint arXiv:2310.03684. 2023. URL: https://arxiv.org/abs/2310.03684.
  152. Ilya Fedorov, others. Llama Guard 3-1B-INT4: Compact and Efficient Safeguard for LLM Safety. arXiv preprint arXiv:2411.17713. 2024. URL: https://arxiv.org/abs/2411.17713.
  153. Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel. SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner. USENIX Security Symposium. 2025.
  154. Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr. Defeating Prompt Injections by Design. 2025. URL: https://arxiv.org/abs/2503.18813.
  155. Stuart Armstrong, Matija Franklin, Connor Stevens, Rebecca Gorman. Defense Against the Dark Prompts: Mitigating Best-of-N Jailbreaking with Prompt Evaluation. arXiv preprint arXiv:2502.00580. 2025. URL: https://arxiv.org/abs/2502.00580.
  156. Madalina Busuioc. AI algorithmic oversight: new frontiers in regulation. Handbook of regulatory authorities. 2022.
  157. Andreas Holzinger, Kurt Zatloukal, Heimo Müller. Is human oversight to AI systems still possible?. New biotechnology. 2024.
  158. Rohan Sharma. Governance and Oversight of AI Systems. AI and the Boardroom: Insights into Governance, Strategy, and the Responsible Adoption of AI. 2024.
  159. Zachary Kenton, Noah Siegel, János Kramár, Jonah Brown-Cohen, Samuel Albanie, Jannis Bulian, Rishabh Agarwal, David Lindner, Yunhao Tang, Noah Goodman, et al.. On scalable oversight with weak llms judging strong llms. Advances in Neural Information Processing Systems. 2024.
  160. Joshua Engels, David D Baek, Subhash Kantamneni, Max Tegmark. Scaling laws for scalable oversight. arXiv preprint arXiv:2504.18530. 2025. URL: https://arxiv.org/abs/2504.18530.
  161. Xueru Wen, Jie Lou, Xinyu Lu, Junjie Yang, Yanjiang Liu, Yaojie Lu, Debing Zhang, Xing Yu. Scalable Oversight for Superhuman AI via Recursive Self-Critiquing. arXiv preprint arXiv:2502.04675. 2025. URL: https://arxiv.org/abs/2502.04675.
  162. Ben Shneiderman. The dangers of faulty, biased, or malicious algorithms requires independent oversight. Proceedings of the National Academy of Sciences. 2016.
  163. Gregory Falco, Ben Shneiderman, Julia Badger, Ryan Carrier, Anton Dahbura, David Danks, Martin Eling, Alwyn Goodloe, Jerry Gupta, Christopher Hart, et al.. Governing AI safety through independent audits. Nature Machine Intelligence. 2021.
  164. Inioluwa Deborah Raji, Peggy Xu, Colleen Honigsberg, Daniel Ho. Outsider oversight: Designing a third party audit ecosystem for ai governance. Proceedings of the 2022 AAAI/ACM Conference on AI, Ethics, and Society. 2022.
  165. Micah Carroll, Alan Chan, Henry Ashton, David Krueger. Characterizing manipulation from AI systems. Proceedings of the 3rd ACM Conference on Equity and Access in Algorithms, Mechanisms, and Optimization. 2023.
  166. Sahand Sabour, June M Liu, Siyang Liu, Chris Z Yao, Shiyao Cui, Xuanming Zhang, Wen Zhang, Yaru Cao, Advait Bhat, Jian Guan, et al.. Human decision-making is susceptible to ai-driven manipulation. arXiv preprint arXiv:2502.07663. 2025. URL: https://arxiv.org/abs/2502.07663.
  167. Jie Chen, Yousef Saad. Dense subgraph extraction with application to community detection. IEEE Transactions on knowledge and data engineering. 2010.
  168. Kai Siong Yow, Ningyi Liao, Siqiang Luo, Reynold Cheng. Machine learning for subgraph extraction: Methods, applications and challenges. Proceedings of the VLDB Endowment. 2023.
  169. Eric Bridgeford, Hayden Helm. Detecting Perspective Shifts in Multi-agent Systems. 2025. URL: https://arxiv.org/abs/2512.05013.
  170. Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, et al.. Red teaming language models to reduce harms: Methods, scaling behaviors, and lessons learned. arXiv preprint arXiv:2209.07858. 2022. URL: https://arxiv.org/abs/2209.07858.
  171. Lama Ahmad, Sandhini Agarwal, Michael Lampe, Pamela Mishkin. OpenAI's Approach to External Red Teaming for AI Models and Systems. arXiv preprint arXiv:2503.16431. 2025. URL: https://arxiv.org/abs/2503.16431.
  172. Mantas Mazeika, Long Phan, Xuwang Yin, Andy Zou, Zifan Wang, Norman Mu, Elham Sakhaee, Nathaniel Li, Steven Basart, Bo Li, et al.. Harmbench: A standardized evaluation framework for automated red teaming and robust refusal. arXiv preprint arXiv:2402.04249. 2024. URL: https://arxiv.org/abs/2402.04249.
  173. Subhabrata Majumdar, Brian Pendleton, Abhishek Gupta. Red teaming ai red teaming. arXiv preprint arXiv:2507.05538. 2025. URL: https://arxiv.org/abs/2507.05538.
  174. Pengfei He, Yupin Lin, Shen Dong, Han Xu, Yue Xing, Hui Liu. Red-teaming llm multi-agent systems via communication attacks. arXiv preprint arXiv:2502.14847. 2025. URL: https://arxiv.org/abs/2502.14847.
  175. Ali Asad, Stephen Obadinma, Radin Shayanfar, Xiaodan Zhu. RedDebate: Safer Responses through Multi-Agent Red Teaming Debates. arXiv preprint arXiv:2506.11083. 2025. URL: https://arxiv.org/abs/2506.11083.
  176. Doowon Jeong. Artificial intelligence security threat, crime, and forensics: Taxonomy and open issues. IEEE Access. 2020.
  177. Amina Alnaqbi, Meera Alblooshi, Hessa Ali Nasser, Niyat Habtom, Farkhund Iqbal. Forensic Investigations in the Age of AI: Identifying and Analyzing Artifacts from AI-Assisted Crimes. 2025 13th International Symposium on Digital Forensics and Security (ISDFS). 2025.
  178. Carson Ezell, Xavier Roberts-Gaal, Alan Chan. Incident Analysis for AI Agents. arXiv preprint arXiv:2508.14231. 2025. URL: https://arxiv.org/abs/2508.14231.
  179. Kunal Mukherjee, Murat Kantarcioglu. LLM-driven Provenance Forensics for Threat Investigation and Detection. arXiv preprint arXiv:2508.21323. 2025. URL: https://arxiv.org/abs/2508.21323.
  180. Maxim Chernyshev, Zubair A. Baig, Robin Doss. Towards Large Language Model (LLM) Forensics Using LLM-based Invocation Log Analysis. Proceedings of the 1st ACM Workshop on Large AI Systems and Models with Privacy and Safety Analysis (LAMPS) at ACM CCS. 2024. doi: 10.1145/3689217.3690616.
  181. Thuy Ngoc Nguyen, Chase McDonald, Cleotilde Gonzalez. Credit assignment: Challenges and opportunities in developing human-like ai agents. arXiv preprint arXiv:2307.08171. 2023. URL: https://arxiv.org/abs/2307.08171.
  182. Wenhao Li, Dan Qiao, Baoxiang Wang, Xiangfeng Wang, Wei Yin, Hao Shen, Bo Jin, Hongyuan Zha. Multi-agent credit assignment with pretrained language models. International Conference on Artificial Intelligence and Statistics. 2025.
  183. Matija Franklin, Hal Ashton, Edmond Awad, David Lagnado. Causal framework of artificial autonomous agent responsibility. Proceedings of the 2022 AAAI/ACM Conference on AI, Ethics, and Society. 2022.
  184. Philip Moreira Tomei, Rupal Jain, Matija Franklin. AI Governance through Markets. arXiv preprint arXiv:2501.17755. 2025. URL: https://arxiv.org/abs/2501.17755.
  185. Gillian K. Hadfield, Jack Clark. Regulatory Markets: The Future of AI Governance. arXiv preprint arXiv:2304.04914. 2023. URL: https://arxiv.org/abs/2304.04914.
  186. Anat Lior. Insuring AI: The role of insurance in artificial intelligence regulation. Harv. JL & Tech.. 2021.
  187. Rune Kvist, Rajiv Dattani, Brandon Wang. Underwriting Superintelligence: Insurance Unlocks Secure AI Progress. 2025.
  188. Philip Moreira Tomei. Machina Economica, Part I: Autonomous Economic Agents in Capital Markets. 2024.
  189. Joseph Carlsmith. Is power-seeking AI an existential risk?. arXiv preprint arXiv:2206.13353. 2022. URL: https://arxiv.org/abs/2206.13353.
  190. Alexander Matt Turner. On avoiding power-seeking by artificial intelligence. arXiv preprint arXiv:2206.11831. 2022. URL: https://arxiv.org/abs/2206.11831.
  191. Charles J Fombrun. Attributions of power across a social network. Human relations. 1983.
  192. Rebecca Scholefield, Samuel Martin, Otto Barten. International Agreements on AI Safety: Review and Recommendations for a Conditional AI Safety Treaty. 2025. URL: https://arxiv.org/abs/2503.18956.
  193. Ross Gruetzemacher, Alan Chan, Kevin Frazier, Christy Manning, Štěpán Los, James Fox, José Hernández-Orallo, John Burden, Matija Franklin, Clíodhna Ní Ghuidhir, et al.. An international consortium for evaluations of societal-scale risks from advanced AI. arXiv preprint arXiv:2310.14455. 2023. URL: https://arxiv.org/abs/2310.14455.
  194. Akash R Wasil, Tom Reed, Jack William Miller, Peter Barnett. Verification methods for international AI agreements. arXiv preprint arXiv:2408.16074. 2024. URL: https://arxiv.org/abs/2408.16074.