模块二 · 组织重写 / F11 机制级 · 所有组织重写框架 →

智能体安全三系统架构 Agent Boundary-Escalation-Recovery System ABERS

最危险的智能体,不是那个明显越界的,而是那个你以为还在边界内但其实早已漂移的。
边界设计完成的那一刻,是系统最安全的时刻——之后只会越来越不安全,如果没有持续治理的话。

DEF ·边界、升级、恢复三套系统保障 Agent 规模化运行时不越权、不失控、可恢复——并引入"边界腐烂"概念与根因回流闭环

核心问题
智能体规模化运行时,怎么保证它不越权、不失控、出问题时可恢复——而且边界本身不会"腐烂"?
体系定位
组织重写第五层 · 负责回答「智能体的安全护栏怎么搭建并持续维护」
使用时机
Agent 上线前的治理设计 · 大规模部署后的安全运维体系 · 合规高敏感场景(金融/医疗/法律) · Agent 安全事故后的根因复盘
F11 · 三系统纵深防御
P8
恢复系统 · RECOVERY 即时遏制 · 影响评估 · 根因闭环 升级系统 · ESCALATION 5 类触发条件 · 具名升级 · 时效要求 F11 · ABERS 边界系统 任务 / 资源 / 决策 B → 定义 E → 检测 R → 复原
内:边界系统(第一道防线) 中:升级系统(发现越界) 外:恢复系统(限制损害 + 根因闭环)

01一个普遍存在的现象

企业在部署智能体时,通常会认真地设计初始边界:什么可以做,什么不能做,超出哪些条件需要停止并升级给人工处理。这个设计工作做得越仔细,团队越觉得系统是安全的。

问题在于,边界设计完成的那一刻,是系统最安全的时刻,之后只会越来越不安全——如果没有对应的持续治理机制的话。

业务规则在变,客户场景在变,系统接入的外部数据在变,智能体底层的模型版本在更新。每一次变化,都可能让原本精心设计的边界出现一个新的缺口,而没有人注意到这个缺口,因为没有人在专门盯着这件事。

这种边界随时间悄悄退化的现象,叫做"边界腐烂"(Boundary Decay),是当前大规模部署智能体的企业里最普遍、也最难被发现的安全风险。

02为什么单靠边界设计是不够的

安全领域有一个经典原则——"纵深防御"(Defense in Depth)——意思是不要依赖单一的防线,应该建立多层次的防御机制。单层防御一旦被突破,就没有第二道防线。

但大多数企业的智能体安全,实际上只有一层:初始边界定义。规则写在系统提示词里,限制了某些操作,检查了某些条件,这就是全部的安全机制。

这种单层防御的问题,不只是深度不够。更根本的问题在于,它是静态的,而真实世界是动态的。一个设计精良的静态边界,面对持续变化的业务环境、不断更新的技术基础和持续演化的攻击手段,其有效性会随时间单调递减。

在软件工程的传统安全体系里,这个问题已经有了成熟的解法:防火墙+入侵检测+应急响应,三层机制分别负责"阻止"、"发现"和"恢复"。但这套体系是为确定性系统设计的——相同输入产生相同输出的系统。智能体是概率性系统,同一输入在不同情境下可能产生不同输出,传统安全体系的检测逻辑在这里有根本性的适配问题。

理论来源:纵深防御原则(Defense in Depth,来源于军事战略,被引入信息安全领域);ITIL 服务管理框架中的事件升级机制。
本框架创新:将纵深防御逻辑迁移至智能体治理场景,构建专门针对概率性系统的三层安全架构:边界系统(定义)+ 升级系统(发现)+ 恢复系统(复原);提出"边界腐烂"概念并建立边界有效性定期审查机制;增加"意图歧义检测"和"不可逆后果预判"作为智能体特有的升级触发维度。

03三系统的核心设计

边界系统(Boundary System)

定义智能体不能越过的三类边界:任务边界(可执行的工作范围)、资源边界(可调用的权限和资产)、决策边界(可自主判断的风险级别)。

但设计完成不是终点,边界系统还必须包含一个关键组件:定期有效性审查。建议每季度强制审查一次——不是检查边界是否被违反,而是检查边界的定义是否仍然匹配当前的业务现实。这是防止"边界腐烂"的核心机制。

升级系统(Escalation System)

定义五类必须触发人工介入的条件:

  1. 不确定性超过预设阈值
  2. 资源需求超出权限
  3. 输出结果影响不可逆
  4. 检测到意图歧义 ★ 智能体特有
  5. 外部环境发生异常变化 ★ 智能体特有

这五个触发条件里,最容易被忽视的是最后两个——"意图歧义"和"环境异常"都是智能体特有的风险类型,传统 IT 升级机制里没有对应的检测逻辑。

升级路径必须是具名的、有时效要求的——不是"出问题联系技术部门",而是"在 X 分钟内升级给具名负责人 Y"。

恢复系统(Recovery System)

包含三个组件:

没有根因闭环,恢复系统只是在救火,不是在治本。每一次越界事件,都应该让系统更安全,而不只是被解决。

04这个框架揭示的底层逻辑

智能体安全三系统架构揭示的,是一个关于"安全"本质的重新理解:安全不是一种状态,而是一种持续运转的能力

传统 IT 安全的隐性假设,是把"安全"视为一种可以达到并维持的状态——系统通过了安全审计,就是安全的。这个假设在确定性系统里勉强成立。

智能体系统打破了这个假设。它的行为是概率性的,它的边界有效性会随环境变化而衰减,它面临的攻击手段(如提示注入)是动态演化的。对于这种系统,"安全状态"是不存在的,存在的只有"安全运维能力"——一种持续发现问题、持续响应、持续改进的组织能力。

把安全从"状态"重新定义为"能力",意味着安全工作不再是一次性的部署前审查,而是一项持续的运营工作,需要专门的人力投入和制度支撑

05它在哪个具体决策节点上改变判断

这个框架最直接改变的是智能体系统的运维预算和人员配置决策

没有这个框架的管理者,通常会在系统稳定上线之后,逐步减少对它的投入——"系统跑得很稳,不需要那么多关注了"。这是把"稳定运行"误解为"安全状态已达到"。

有了这个框架,理解会变成:一个上线后没有人在认真维护三系统的智能体,不是"已经安全了",而是"正在从安全状态向不安全状态漂移,而且没有人知道"。维护三系统的持续投入,不是冗余成本,是防止边界腐烂的必要代价。

你现在部署的那些智能体,上一次审查它们的边界有效性是什么时候?