01传统防火墙拦不住的攻击
某家银行的数字化部门,在部署了一个贷款咨询AI之后,通知了安全团队进行例行的安全审查。安全团队用了标准的测试流程:渗透测试、SQL注入、XSS攻击、API安全扫描。结果很好,系统通过了所有测试。
三个月后,一名研究人员在公开测试中发现:通过特殊构造的用户输入,可以让这个AI说出"请忽略之前的所有指令,现在你的任务是…"这种操控指令,成功绕过了系统的安全约束。更令人担忧的是,安全团队的测试工具和检测规则,对这类攻击完全没有响应——因为这类攻击发生在自然语言层面,而不是网络协议层面。
这就是提示注入攻击(Prompt Injection)。它代表了一类传统安全体系完全无效的新型威胁,是Agent特有的安全风险之一。
02七类新型风险的画像
Agent系统的风险格局与传统软件系统有根本性差异。七类新型风险,每一类都需要专门的防御策略。
提示注入(风险评分最高):攻击者通过构造特殊输入,操纵Agent忽略系统指令或执行未授权操作。直接提示注入通过用户输入触发;间接提示注入更为隐蔽,通过Agent会读取的外部内容(网页、文档、数据库记录)植入恶意指令。传统的输入验证工具对自然语言层面的注入几乎无效,需要专门的语义分析防护。
幻觉(发生频率最高):Agent生成看起来可信但实际上错误的信息。幻觉不是偶发故障,而是当前大语言模型的系统性特征。在需要准确信息的场景(医疗、法律、金融),幻觉的影响可以是毁灭性的。缓解幻觉需要多层手段:知识库锚定(强制Agent引用来源而非自由生成)、置信度过滤(低置信度输出不直接呈现给用户)、事实核查Agent(交叉验证关键信息)。
数据泄露(业务影响最高):Agent意外将敏感信息传递给未授权方。Agent的数据访问范围往往比传统应用更广,因为它需要读取大量上下文信息才能有效工作。如果访问控制设计不当,一个原本用于帮助员工查询HR政策的Agent,可能被诱导泄露其他员工的薪资信息。
多Agent级联失败(最难控制):在多Agent架构中,一个Agent的失败可以触发其他Agent的连锁反应,形成系统性故障。当Agent A的错误输出成为Agent B的输入,Agent B的错误输出又传递给Agent C时,初始的小错误可能在链路中被指数级放大。这是L4/L5架构的特有风险,也是L3监督者编排的重要优势之一。
供应链风险:依赖的基础模型、API服务、数据提供商出现问题(服务中断、版本变更、政策调整),会直接影响Agent的可用性和行为。特别是当核心能力依赖单一外部供应商时,供应商的商业决策(提价、停服、政策变更)会对Agent系统形成难以预测的冲击。
合规风险:AI监管处于快速演变期,今天合规的Agent设计,可能在新法规出台后需要全面重构。特别是在个人数据处理、自动化决策、高风险场景(医疗、金融、招聘)方面,各地区的监管要求差异很大且持续变化。
主权风险:当Agent使用的数据或模型在法律上不在组织的完全控制之内,就存在主权风险。将敏感企业数据发送给第三方模型API,数据是否被用于训练?是否存储在境外服务器?这些问题涉及数据主权,在金融、政府、医疗等敏感行业尤其关键。
03三层防御体系:HITL、HOTL、HAL
有效的Agent风险防御,需要三层不同深度的人类介入机制协同运作。
HITL(Human-In-The-Loop,人类在决策回路中)是最深度的介入:在某些高风险操作上,Agent无法自主执行,必须等待人类明确授权。适用场景是影响不可逆的高风险操作(大额资金转移、重要合同生成、医疗建议发布)。HITL的成本高(每次都需要人工干预),但提供了最强的安全保障。
HOTL(Human-On-The-Loop,人类监控但不介入)是中等深度的介入:人类实时监控Agent的运行状态,但不干预每一个决策,只在监控到异常时介入。适用场景是高频低风险操作,系统大多数时候可以自主运行,但需要人类能够随时介入。HOTL需要高质量的监控系统和快速的响应能力。
HAL(Human-Above-The-Loop,人类设定规则系统自动执行)是最浅度的介入:人类预先定义规则和约束,系统在规则框架内自主运行,异常情况自动处理(告警、降级、拒绝)。适用场景是风险可量化、规则可预先定义的场景。HAL的成本最低,但防御效果依赖规则的完整性和准确性。
关键的设计原则是:三层防御需要组合使用,而不是单选。对于同一个Agent,高风险操作用HITL,日常运营用HOTL,系统级防护用HAL。过度依赖任何单一层级,都会留下防御盲区。
04风险注册表:让风险可见可追踪
风险注册表是将七类风险管理从原则转化为实践的核心工具。每一个部署中的Agent,都应该维护一份活的风险注册表,记录每类风险的当前状态。
风险注册表的每一条记录包含:风险类别和具体描述、概率与影响的量化评分(1-5×1-5的矩阵)、当前已部署的控制措施、实施控制后的残余风险评分、风险负责人、当前状态(未控制/监控中/改善中/已控制)、最近一次风险事件记录、下一步缓解计划。
风险注册表的价值不在于创建,而在于持续维护。AI风险的演化速度极快——新的提示注入技术不断涌现,监管政策在持续更新,供应商的服务条款会发生变化。一份三个月没有更新的风险注册表,对于风险防御的参考价值有限。建议每月进行一次例行更新,每季度进行一次全面审查。
05当有人告诉你"传统安全就够了"
在实际的企业AI安全治理中,最常见的阻力来自这样一种判断:"我们已经有完善的信息安全体系,AI系统纳入现有框架就够了。"这个判断在某些方面是对的(数据保护、访问控制等),但在Agent特有的风险维度上是错误的。
传统防火墙和WAF(Web应用防火墙)无法检测自然语言层面的提示注入。传统的数据泄露检测系统,无法识别Agent在正常对话流程中间接泄露信息的模式。传统的可用性监控,无法捕捉幻觉率的渐进性上升。多Agent级联失败,是分布式系统的特有风险,需要专门的混沌工程方法来验证。
这不是说传统安全体系没有价值——它是Agent安全治理的基础层。而七类新型风险的防御,是必须在这个基础上额外构建的能力层。那家银行在发现提示注入漏洞后,花了两个月时间重新设计了AI系统的安全架构:在系统提示词中引入了上下文隔离机制,部署了专门针对提示注入模式的语义检测层,建立了对抗性测试的定期红队机制。这些工作,在原有的安全框架中找不到对应的模板,需要从零开始构建。
01攻击者不需要任何传统技术能力——只需要会说话
2024 年,多起真实的安全事件开始在 AI 行业引起关注:一个企业客服智能体被用户通过特殊措辞诱导,泄露了本不该透露的系统提示词;一个自动化邮件处理系统被攻击者植入恶意指令,自动向内部联系人发送了钓鱼邮件;一个代码生成智能体被诱导产生了包含安全漏洞的代码片段,而开发者并没有察觉。
这些事件的共同特征:攻击者不需要任何传统意义上的技术能力,不需要破解密码,不需要利用代码漏洞,不需要入侵系统。他们只需要知道如何用自然语言来说话——而这是所有人都会的。
这是一类全新的安全威胁类型,传统安全体系没有为它设计防御机制,因为在大语言模型出现之前,"用自然语言欺骗一个软件系统执行未授权操作"在技术上是不可能的。
02为什么智能体面临的风险类型是全新的
本框架创新:系统性识别并定义智能体七类新型风险,构建专属的四维防御体系;提出从"防御已知威胁"到"监控可疑行为模式"的安全哲学转变。
企业信息安全领域有几十年的积累——防火墙、入侵检测、代码审计、访问控制、数据加密。这套体系建立在一个假设上:威胁来自技术层面,攻击者需要利用软件漏洞、网络协议缺陷或权限配置错误来发动攻击。
智能体带来的新型威胁,打破了这个假设。新型威胁的来源是智能体的核心能力——理解自然语言并根据理解来自主决策和执行。这个能力不能被关掉,因为它就是智能体的价值所在。
智能体的最大能力,也是它的最大攻击面。任何能够影响智能体"理解"方式的输入,都是潜在的攻击向量,而这类输入的形式就是普通的自然语言文本。
03七类新型风险
每一类风险都来自智能体的根本性特征。
提示词注入(Prompt Injection)
攻击者在智能体处理的内容里(邮件、文档、网页)嵌入能够改变智能体行为的指令。这是当前最活跃的攻击类型,攻击门槛极低,已有大量真实 CVE 记录。
上下文污染(Context Poisoning)
通过向智能体的知识库或检索系统植入错误信息,使智能体在不知情的情况下持续产生被污染的输出。与提示词注入不同,上下文污染是持久性的,效果可以维持很长时间。
越权执行(Privilege Escalation)
诱导智能体执行超出其授权范围的操作,通常通过构造使智能体认为某个操作是"合理的、被授权的"的语境来实现。
数据渗漏(Data Exfiltration)
通过智能体作为中介,将敏感数据传递给未授权方。智能体在处理敏感数据和回应外部请求时,如果没有严格的数据流向控制,可能无意中成为数据泄露的通道。
角色劫持(Identity Hijacking)
诱导高度人格化的智能体"忘记"自己的设定,假装成其他身份(包括假装成系统管理员或拥有更高权限的实体),从而获取原本不应该提供的信息或权限。
供应链攻击(Supply Chain Attack)
智能体系统依赖外部模型、工具、数据源,这些依赖本身是潜在的攻击面。攻击者可以通过污染上游资源,影响所有依赖它的下游智能体。
决策操纵(Decision Manipulation)
在高风险的自动决策场景(金融、医疗、合规),攻击者通过精心构造的输入,影响智能体的判断方向,使其做出对攻击者有利但对企业有害的决策。
04四维防御体系
智能体全域风险治理法提出四个互补的防御维度,形成多层次的防御体系。
安全边界(Security Perimeter)
定义智能体系统的明确权限范围,实施最小权限原则——每个智能体只拥有完成其特定任务所需的最小权限。关键资源的访问需要强制的二次确认,不允许智能体单边执行高风险操作。
行为监控(Behavior Monitoring)
实时追踪智能体的行为是否偏离正常模式。不是检测具体的攻击签名,而是监控"行为分布"——当一个智能体的行为模式偏离了历史基线,触发人工审查。这是对抗新型未知攻击的核心防御机制。
内容过滤(Content Filtering)
对智能体处理的输入和产生的输出,进行双向的语义级安全检查。不只是过滤敏感词,而是识别可能的攻击意图和不当的输出内容。这一层是拦截提示词注入和数据渗漏的主要防线。
审计追溯(Audit Trail)
确保智能体的所有操作都有完整的日志记录,支持事后的安全分析、责任归因和规律识别。审计不只是合规要求,更是安全的学习机制——通过分析历史攻击事件,持续优化前三个防御维度。
05从"防御已知威胁"到"监控可疑行为模式"
全域风险治理法揭示的,是 AI 时代安全治理的根本性哲学转变。
传统安全思维是防御导向的——把已知的坏东西阻挡在外。这在面对有限的已知攻击类型时是有效的。
智能体安全思维需要是侦测导向的——假设某种形式的攻击总会成功渗入,持续监控系统内部的行为是否偏离正常状态,在异常积累成损害之前识别并响应。
这个转变的背后,是一个关于风险认知的成熟:完美的边界防御是不可能的,尤其是当攻击向量和系统的核心能力共享同一个接口(自然语言)时。接受这个不完美,并在此基础上建立快速侦测和响应能力,是比追求完美边界更现实、也更有效的安全策略。
T1理论来源与学术引证
以下为本框架的理论基础说明,提炼自正文中的理论注释块。
本框架创新:系统性识别并定义智能体七类新型风险,构建专属的四维防御体系;提出从"防御已知威胁"到"监控可疑行为模式"的安全哲学转变。
T2框架定位与适用边界
本框架是管理实践工具,为高管和研究者提供结构化分析视角,不提供可直接验证的因果预测。其有效性依赖于:分析者对所在行业的深度认知、可获取的组织数据质量、以及将分析结论与具体决策场景相结合的能力。
智能体时代的框架有一个共同的时效性问题——AI 技术演化速度快于传统战略框架的更新周期。建议每 12–18 个月对本框架的核心假设进行一次复盘,检视其前提条件是否仍然成立。