F32 · 智能体全域风险治理法 (SRAG)

F32 · 七类风险 + 四维防御

内：安全边界（最小权限 · 二次确认）中：行为监控 + 内容过滤外：审计追溯（事后学习）

01攻击者不需要任何传统技术能力——只需要会说话

2024 年，多起真实的安全事件开始在 AI 行业引起关注：一个企业客服智能体被用户通过特殊措辞诱导，泄露了本不该透露的系统提示词；一个自动化邮件处理系统被攻击者植入恶意指令，自动向内部联系人发送了钓鱼邮件；一个代码生成智能体被诱导产生了包含安全漏洞的代码片段，而开发者并没有察觉。

这些事件的共同特征：攻击者不需要任何传统意义上的技术能力，不需要破解密码，不需要利用代码漏洞，不需要入侵系统。他们只需要知道如何用自然语言来说话——而这是所有人都会的。

这是一类全新的安全威胁类型，传统安全体系没有为它设计防御机制，因为在大语言模型出现之前，"用自然语言欺骗一个软件系统执行未授权操作"在技术上是不可能的。

02为什么智能体面临的风险类型是全新的

理论来源：信息安全纵深防御理论（NIST 网络安全框架）；OWASP TOP 10（开放式 Web 应用安全项目）；提示词注入 CVE 研究（2023 年起系统化）。
本框架创新：系统性识别并定义智能体七类新型风险，构建专属的四维防御体系；提出从"防御已知威胁"到"监控可疑行为模式"的安全哲学转变。

企业信息安全领域有几十年的积累——防火墙、入侵检测、代码审计、访问控制、数据加密。这套体系建立在一个假设上：威胁来自技术层面，攻击者需要利用软件漏洞、网络协议缺陷或权限配置错误来发动攻击。

智能体带来的新型威胁，打破了这个假设。新型威胁的来源是智能体的核心能力——理解自然语言并根据理解来自主决策和执行。这个能力不能被关掉，因为它就是智能体的价值所在。

智能体的最大能力，也是它的最大攻击面。任何能够影响智能体"理解"方式的输入，都是潜在的攻击向量，而这类输入的形式就是普通的自然语言文本。

03七类新型风险

每一类风险都来自智能体的根本性特征。

提示词注入（Prompt Injection）

攻击者在智能体处理的内容里（邮件、文档、网页）嵌入能够改变智能体行为的指令。这是当前最活跃的攻击类型，攻击门槛极低，已有大量真实 CVE 记录。

上下文污染（Context Poisoning）

通过向智能体的知识库或检索系统植入错误信息，使智能体在不知情的情况下持续产生被污染的输出。与提示词注入不同，上下文污染是持久性的，效果可以维持很长时间。

越权执行（Privilege Escalation）

诱导智能体执行超出其授权范围的操作，通常通过构造使智能体认为某个操作是"合理的、被授权的"的语境来实现。

数据渗漏（Data Exfiltration）

通过智能体作为中介，将敏感数据传递给未授权方。智能体在处理敏感数据和回应外部请求时，如果没有严格的数据流向控制，可能无意中成为数据泄露的通道。

角色劫持（Identity Hijacking）

诱导高度人格化的智能体"忘记"自己的设定，假装成其他身份（包括假装成系统管理员或拥有更高权限的实体），从而获取原本不应该提供的信息或权限。

供应链攻击（Supply Chain Attack）

智能体系统依赖外部模型、工具、数据源，这些依赖本身是潜在的攻击面。攻击者可以通过污染上游资源，影响所有依赖它的下游智能体。

决策操纵（Decision Manipulation）

在高风险的自动决策场景（金融、医疗、合规），攻击者通过精心构造的输入，影响智能体的判断方向，使其做出对攻击者有利但对企业有害的决策。

04四维防御体系

智能体全域风险治理法提出四个互补的防御维度，形成多层次的防御体系。

安全边界（Security Perimeter）

定义智能体系统的明确权限范围，实施最小权限原则——每个智能体只拥有完成其特定任务所需的最小权限。关键资源的访问需要强制的二次确认，不允许智能体单边执行高风险操作。

行为监控（Behavior Monitoring）

实时追踪智能体的行为是否偏离正常模式。不是检测具体的攻击签名，而是监控"行为分布"——当一个智能体的行为模式偏离了历史基线，触发人工审查。这是对抗新型未知攻击的核心防御机制。

内容过滤（Content Filtering）

对智能体处理的输入和产生的输出，进行双向的语义级安全检查。不只是过滤敏感词，而是识别可能的攻击意图和不当的输出内容。这一层是拦截提示词注入和数据渗漏的主要防线。

审计追溯（Audit Trail）

确保智能体的所有操作都有完整的日志记录，支持事后的安全分析、责任归因和规律识别。审计不只是合规要求，更是安全的学习机制——通过分析历史攻击事件，持续优化前三个防御维度。

05从"防御已知威胁"到"监控可疑行为模式"

全域风险治理法揭示的，是 AI 时代安全治理的根本性哲学转变。

传统安全思维是防御导向的——把已知的坏东西阻挡在外。这在面对有限的已知攻击类型时是有效的。

智能体安全思维需要是侦测导向的——假设某种形式的攻击总会成功渗入，持续监控系统内部的行为是否偏离正常状态，在异常积累成损害之前识别并响应。

这个转变的背后，是一个关于风险认知的成熟：完美的边界防御是不可能的，尤其是当攻击向量和系统的核心能力共享同一个接口（自然语言）时。接受这个不完美，并在此基础上建立快速侦测和响应能力，是比追求完美边界更现实、也更有效的安全策略。

智能体全域风险治理法 Seven-Risk Agent Governance Method SRAG

01传统防火墙拦不住的攻击

02七类新型风险的画像

03三层防御体系：HITL、HOTL、HAL

04风险注册表：让风险可见可追踪

05当有人告诉你"传统安全就够了"