模块五 · 价值重写 / F32 治理级 · 所有价值重写框架 →

智能体全域风险治理法 Seven-Risk Agent Governance Method SRAG

传统防火墙防不住提示词注入——智能体的风险来自它最独特的能力本身。
一个能理解自然语言并自主执行的系统,其最大的能力,也是其最大的攻击面。

DEF ·识别并治理提示注入 / 上下文污染 / 越权执行 / 数据渗漏 / 角色劫持 / 供应链 / 决策操纵七类 Agent 新型风险——通过安全边界 / 行为监控 / 内容过滤 / 审计追溯四维防御体系应对。

核心问题
Agent 的新型风险有哪些?传统安全为什么防不住?应该用什么防御体系?
体系定位
第五层 · 负责回答「智能体的全域风险治理框架」,与 F11 的安全三系统配套。
使用时机
Agent 系统安全架构设计 · 红队对抗演练 · 生产事故复盘 · 合规审计与治理报告
F32 · 七类风险 + 四维防御
P8
审计追溯 · 学习 完整日志 · 事后分析优化防御 内容过滤 · 内容层 输入输出双向 · 语义级安全分析 行为监控 · 行为层 追踪行为分布 · 偏离基线触发人工
内:安全边界(最小权限 · 二次确认)中:行为监控 + 内容过滤外:审计追溯(事后学习)

01攻击者不需要任何传统技术能力——只需要会说话

2024 年,多起真实的安全事件开始在 AI 行业引起关注:一个企业客服智能体被用户通过特殊措辞诱导,泄露了本不该透露的系统提示词;一个自动化邮件处理系统被攻击者植入恶意指令,自动向内部联系人发送了钓鱼邮件;一个代码生成智能体被诱导产生了包含安全漏洞的代码片段,而开发者并没有察觉。

这些事件的共同特征:攻击者不需要任何传统意义上的技术能力,不需要破解密码,不需要利用代码漏洞,不需要入侵系统。他们只需要知道如何用自然语言来说话——而这是所有人都会的。

这是一类全新的安全威胁类型,传统安全体系没有为它设计防御机制,因为在大语言模型出现之前,"用自然语言欺骗一个软件系统执行未授权操作"在技术上是不可能的。

02为什么智能体面临的风险类型是全新的

理论来源:信息安全纵深防御理论(NIST 网络安全框架);OWASP TOP 10(开放式 Web 应用安全项目);提示词注入 CVE 研究(2023 年起系统化)。
本框架创新:系统性识别并定义智能体七类新型风险,构建专属的四维防御体系;提出从"防御已知威胁"到"监控可疑行为模式"的安全哲学转变。

企业信息安全领域有几十年的积累——防火墙、入侵检测、代码审计、访问控制、数据加密。这套体系建立在一个假设上:威胁来自技术层面,攻击者需要利用软件漏洞、网络协议缺陷或权限配置错误来发动攻击。

智能体带来的新型威胁,打破了这个假设。新型威胁的来源是智能体的核心能力——理解自然语言并根据理解来自主决策和执行。这个能力不能被关掉,因为它就是智能体的价值所在。

智能体的最大能力,也是它的最大攻击面。任何能够影响智能体"理解"方式的输入,都是潜在的攻击向量,而这类输入的形式就是普通的自然语言文本。

03七类新型风险

每一类风险都来自智能体的根本性特征。

提示词注入(Prompt Injection)

攻击者在智能体处理的内容里(邮件、文档、网页)嵌入能够改变智能体行为的指令。这是当前最活跃的攻击类型,攻击门槛极低,已有大量真实 CVE 记录。

上下文污染(Context Poisoning)

通过向智能体的知识库或检索系统植入错误信息,使智能体在不知情的情况下持续产生被污染的输出。与提示词注入不同,上下文污染是持久性的,效果可以维持很长时间。

越权执行(Privilege Escalation)

诱导智能体执行超出其授权范围的操作,通常通过构造使智能体认为某个操作是"合理的、被授权的"的语境来实现。

数据渗漏(Data Exfiltration)

通过智能体作为中介,将敏感数据传递给未授权方。智能体在处理敏感数据和回应外部请求时,如果没有严格的数据流向控制,可能无意中成为数据泄露的通道。

角色劫持(Identity Hijacking)

诱导高度人格化的智能体"忘记"自己的设定,假装成其他身份(包括假装成系统管理员或拥有更高权限的实体),从而获取原本不应该提供的信息或权限

供应链攻击(Supply Chain Attack)

智能体系统依赖外部模型、工具、数据源,这些依赖本身是潜在的攻击面。攻击者可以通过污染上游资源,影响所有依赖它的下游智能体。

决策操纵(Decision Manipulation)

在高风险的自动决策场景(金融、医疗、合规),攻击者通过精心构造的输入,影响智能体的判断方向,使其做出对攻击者有利但对企业有害的决策。

04四维防御体系

智能体全域风险治理法提出四个互补的防御维度,形成多层次的防御体系。

安全边界(Security Perimeter)

定义智能体系统的明确权限范围,实施最小权限原则——每个智能体只拥有完成其特定任务所需的最小权限。关键资源的访问需要强制的二次确认,不允许智能体单边执行高风险操作。

行为监控(Behavior Monitoring)

实时追踪智能体的行为是否偏离正常模式。不是检测具体的攻击签名,而是监控"行为分布"——当一个智能体的行为模式偏离了历史基线,触发人工审查。这是对抗新型未知攻击的核心防御机制。

内容过滤(Content Filtering)

对智能体处理的输入和产生的输出,进行双向的语义级安全检查。不只是过滤敏感词,而是识别可能的攻击意图和不当的输出内容。这一层是拦截提示词注入和数据渗漏的主要防线。

审计追溯(Audit Trail)

确保智能体的所有操作都有完整的日志记录,支持事后的安全分析、责任归因和规律识别。审计不只是合规要求,更是安全的学习机制——通过分析历史攻击事件,持续优化前三个防御维度。

05从"防御已知威胁"到"监控可疑行为模式"

全域风险治理法揭示的,是 AI 时代安全治理的根本性哲学转变

传统安全思维是防御导向的——把已知的坏东西阻挡在外。这在面对有限的已知攻击类型时是有效的。

智能体安全思维需要是侦测导向的——假设某种形式的攻击总会成功渗入,持续监控系统内部的行为是否偏离正常状态,在异常积累成损害之前识别并响应。

这个转变的背后,是一个关于风险认知的成熟:完美的边界防御是不可能的,尤其是当攻击向量和系统的核心能力共享同一个接口(自然语言)时。接受这个不完美,并在此基础上建立快速侦测和响应能力,是比追求完美边界更现实、也更有效的安全策略。