模块四 · 系统重写 / F25 评估级 · 所有系统重写框架 →

正常—边缘—对抗三层评测矩阵 Three-Layer Scenario Evaluation Matrix TSEM

只在正常场景测过的智能体,是一个还没遇到真实世界的智能体。
你的智能体在测试环境里表现完美,在真实用户手里却频繁失败——这不是运气问题,是测试设计问题。

DEF ·通过正常场景 → 边缘场景 → 对抗场景三层递进评测,判断 Agent 基础功能、鲁棒性和安全性——缺少任何一层,质量画像都不完整

核心问题
我们的测试覆盖到了真实世界的所有威胁类型吗?还是只测了我们能想到的场景?
体系定位
第六层 · 负责回答「评测内容的完整性」,与 F20 Triple-E 的方法论配套。
使用时机
Agent 发布前质量审查 · 红队测试流程设计 · 安全合规场景准入 · 高风险 Agent 的对抗演练
F25 · TSEM 三层递进
P7
第一层
正常场景
Normal Scenarios
预期用户在预期方式下的典型使用。揭示:系统在理想条件下能否做到基础的事。⚠ 只有这层远远不够。
第二层
边缘场景
Edge Cases
偏离预期的输入——格式不标准、描述模糊、极限长度。揭示:系统的鲁棒性边界在哪里。
第三层 ★
对抗场景
Adversarial Scenarios
主动尝试让系统失效——提示词注入、越权请求、角色劫持。揭示:安全性边界是否真实存在。
三层递进 · 难度递增 · 威胁递增三层均达标才是发布门禁

01团队成员无法测试他们想象不到的失败模式

智能体产品发布之前,几乎所有团队都会做测试。测试结果通常是令人满意的——设计的场景通过了,主要功能运行正常,输出质量达标。团队有信心地推进发布。

然后,真实用户开始使用。几天之内,出现了一批测试时从未预料到的失败:用户用了一个没想到的问法方式,系统给出了完全错误的响应;某个用户提交了一个边界情况的输入,系统陷入了循环;一个试图攻击的用户输入了几句特殊措辞,系统的行为模式发生了不该发生的改变。

团队回头看测试设计,发现问题所在:测试用例全部来自团队成员的预设场景——他们能想到的用法、他们觉得合理的输入。但真实用户的行为从来不只在预设场景里发生。

02测试设计的系统性盲点

理论来源:软件测试理论(边界值分析、等价类划分);对抗性机器学习研究(Adversarial Machine Learning,1990 年代起);红队测试实践(Red Teaming,安全领域)。
本框架创新:将软件测试的边界值分析和安全领域的红队对抗测试,系统性地引入智能体评测设计,构建三层递进的评测矩阵;提出"缺少任何一层,质量画像都不完整"作为评测完整性的强制要求。

这不是测试做得不认真的问题,而是测试设计有一个系统性的认知盲点:团队成员无法测试他们想象不到的失败模式。

传统软件测试的范围定义,主要基于功能规格和代码分支。通过分析功能规格和代码,可以设计出覆盖所有代码路径的测试用例,这叫做"覆盖率",是传统软件测试质量的核心指标。

智能体系统的测试覆盖率概念在这里失效了。智能体的"输入空间"是自然语言,这个空间是无限的,没有可以被穷举的代码路径。任何基于团队预设场景的测试集,都只覆盖了这个无限空间的极小一角。

在智能体系统里,对真实使用威胁最大的,恰恰是那些测试覆盖率最低的场景类型——边缘情况和对抗性输入。这两类场景,在团队的预设测试集里几乎不存在,但在真实世界里真实发生。

03三层评测矩阵的设计逻辑

TSEM 把智能体系统的评测覆盖,分为三个在难度和风险维度上递进的层次。

第一层·正常场景层(Normal Scenarios)

预期用户在预期方式下的典型使用。这一层的设计相对直接——团队根据产品定位,设计覆盖主要使用场景的测试用例,验证基础功能是否运行正常。这是大多数团队的测试重心,也是基础质量的必要条件,但只有这一层远远不够。正常场景层揭示的是:系统在理想情况下能不能做到基础的事。

第二层·边缘场景层(Edge Cases)

偏离预期的输入——格式不标准、描述模糊、包含歧义、覆盖边界条件、测试极限输入长度。边缘场景不是异常,而是正常使用场景的扩展——任何真实用户群体中,都有相当比例的用户不会以"标准"的方式使用产品。设计边缘场景测试,需要团队主动思考:如果用户描述不清楚、用了一个我们没想到的词汇、输入了一个极端长的文本——系统怎么处理?答案应该是"优雅地降级",而不是"失败或产生错误输出"。边缘场景层揭示的是:系统的鲁棒性边界在哪里。

第三层·对抗场景层(Adversarial Scenarios)

主动尝试让系统失效的输入——提示词注入攻击、越权请求、角色劫持、刻意构造的矛盾性输入。这一层需要团队以攻击者的视角来看待自己的系统:如果有人想要让这个系统做它不应该做的事情,最可能通过什么方式?对抗场景测试的价值,不只是发现可以被利用的安全漏洞,更在于揭示系统在压力下的行为模式

04三层的内在必要性

"缺少任何一层,质量画像都不完整"——这句话不是夸张,而是有严格逻辑支撑的命题。

只有正常层,没有边缘层:系统在测试环境里完美,在真实用户的多样使用方式里频繁降级,因为真实用户不遵守"标准使用方式"。

只有正常层+边缘层,没有对抗层:系统在意外输入下能够优雅处理,但面对主动攻击时毫无防御,一次提示词注入就可以让系统产生有害输出或者泄露不该泄露的信息。

只有边缘层+对抗层,没有正常层:这种情况比较少见,但存在于那些只重视"把系统做得足够强壮"而忽视了"基础功能是否正确"的团队。

三层必须同时存在,缺少任何一层,都会在那个层次代表的场景类型里留下未被检验的质量漏洞

05人类想象力的局限

三层评测矩阵揭示的,是真实世界和测试环境之间差距的根本来源。

测试环境是被设计出来的,它包含了设计者能想到的场景。真实世界不被设计,它包含了所有可能的场景,包括设计者没有想到的。

测试覆盖率的局限,本质上是人类想象力的局限。没有人能够预设所有可能的边缘情况,没有人能够完全模拟所有可能的攻击向量。三层评测矩阵不能消除这个局限,但它能够系统性地扩展测试的覆盖范围,让"我们没想到的失败"发生在发布之前,而不是发布之后。

在软件工程有一句经典名言:没有被测试过的代码,是已知有缺陷的代码。在智能体工程里,这句话可以被扩展:没有经过三层评测的智能体,是已知在边缘和对抗场景下质量未知的智能体。