模块三 · 产品重写 / F17 评估级 · 所有产品重写框架 →

可信智能体七维评估法 VERITAS — Seven-Dimensional Trustworthy Agent Evaluation VERITAS

99% 准确率的智能体,为什么照样可以造成灾难——单一指标是最危险的自欺欺人。
你怎么评估一个智能体,决定了你最终会拥有一个什么样的智能体。

DEF ·可验证(V)/ 可解释(E)/ 可靠(R)/ 影响度(I)/ 可信(T)/ 适应(A)/ 安全(S)七个维度建立 Agent 质量画像——其中 S 安全性是唯一不可弥补的维度,必须满分。

F17 · 六维互补 vs S 不可补偿 — 核心公理图
Custom
六维 · 可互相补偿 V · E · R · I · T · A V E R I T A ⇄ 可互补 弱→强弥补 vs S · 不接受任何补偿 安全维度 · Safe S ★ 必须满分 99 分 ≠ 接近满分 而是 = 有可利用漏洞 六维加权计算综合分
六维任意一弱可由其他维强 + 完善审计弥补 S 维不进入加权计算,独立审查;未满分阻止发布
核心问题
智能体的"质量"如何被多维度立体评估,而不是塌缩为一个准确率数字?
体系定位
第五层 · 负责回答「质量画像如何被全面构建」,是产品 + 工程 + 安全三方共同的评估语言。
使用时机
Agent 系统发布质量审查 · 高风险场景的产品准入门禁 · 多 Agent 系统的统一质量语言 · 供应链评估第三方 Agent 服务
F17 · VERITAS 七维雷达
P2
V 可验证 E 可解释 R 可靠 I 影响度 T 可信 A 适应 S 安全 ★ VERITAS · truth
七维评估锚点(V·E·R·I·T·A 互相补偿)★ S 安全维度(不可补偿,必须满分)

01准确率创造的是危险的安全感

在智能体产品的评估实践里,有一个几乎普遍存在的简化倾向:用准确率作为核心甚至唯一的评估指标。

这种倾向是可以理解的。准确率直观、可量化、有基准可以对比。在产品汇报里,"准确率从 85% 提升到 92%"是一个清晰、有说服力的进展表述。

问题在于,准确率只反映了智能体"做对了多少",但没有反映"做错的那些会产生什么后果"。一个准确率 99% 的医疗建议智能体,如果那 1% 的错误恰好是危及生命的误诊,那个 99% 不只是毫无意义,它还会制造一种危险的安全感——团队相信系统足够好了,不需要额外的防护机制

单一指标创造的问题,不只是遗漏了重要维度,而是遮蔽了遗漏本身。当你有一个指标并且这个指标表现良好,你会停止追问它是否足够。

02评估智能体比评估传统软件难得多

理论来源:软件质量评估体系(ISO/IEC 25010,系统和软件质量要求与评估);机器学习模型评估实践。
本框架创新:针对智能体系统的非确定性和多维失败模式,构建专属七维质量评估框架 VERITAS;提出"安全性是唯一不可弥补维度"作为框架的核心公理,明确七维之间的补偿关系和不可补偿边界。

传统软件产品的质量评估,本质上是确定性问题——给定输入,检查输出是否符合规格。测试用例可以被穷举,通过/失败是二元的,质量边界是清晰的。

智能体产品的质量评估是概率性问题。同一个输入,在不同时刻、不同上下文、不同模型状态下,可能产生不同的输出。"通过"和"失败"之间有一片灰色地带。

更重要的是,智能体的"失败模式"远比传统软件复杂——它不只是"输出错误的结果",还包括"产生了有害的内容"、"以不透明的方式做了本不该它做的决定"、"在某类特定的对抗性输入下被操纵"

这些不同类型的失败,有着根本不同的产生机制和根本不同的危害性。一个质量评估框架,必须能够区分这些不同类型的失败,而不是把它们全部压缩进一个单一的准确率数字。

03VERITAS 七维框架

可信智能体七维评估法用七个独立的维度构建智能体质量的立体画像,每个维度评估的是不同类型的能力,对应不同类型的失败风险。

V · 可验证性(Verifiable)

智能体的输出结论是否可以被验证?它是否提供了可以被检查的推理路径或依据来源?不可验证的输出,即使大多数时候是正确的,也会让用户处于无法判断何时信任、何时质疑的困境。

E · 可解释性(Explainable)

智能体的判断逻辑是否可以被用户以有意义的方式理解?这不要求展示所有技术细节,而是要求用户能够理解"为什么它这么做",从而能够在需要时做出有质量的人类监督。

R · 可靠性(Reliable)

智能体在不同场景、不同时间点、不同输入变体下,是否保持一致的表现水准?一个高准确率但低可靠性的系统,是一个你不知道何时会失灵的系统,这比一个稳定的低准确率系统更难管理。

I · 影响度(Impact)

这个智能体的决策和行动,在产生错误时,会造成多大范围和多高严重程度的影响?影响度高的智能体(处理金融交易、医疗诊断、法律文件的智能体),对所有其他维度的要求都相应提高。

T · 可信度(Trustworthy)

智能体是否有足够的透明度和一致性,让用户可以形成准确的信任预期——既不过度信任,也不无谓地不信任?可信度是一个"校准"维度。

A · 适应性(Adaptive)

智能体在遇到没有见过的新场景、边缘案例或上下文变化时,是否能够合理地处理?适应性弱的智能体,其高准确率是在训练分布内的准确率,一旦遇到分布外的场景就会崩塌。

S · 安全性(Safe)

这是七维中最特殊的一维。它评估的是:智能体是否存在可以被恶意利用的漏洞(如提示注入)、是否会产生潜在的有害输出、在边界情况下是否有足够的防护。

04安全性是唯一不可弥补的维度

这是 VERITAS 框架最重要的设计决策,也是最需要被理解的一条公理七个维度之间,有六个维度可以互相补偿,但安全性是例外。

六个维度之间的补偿是真实的:一个可解释性较弱的系统,可以通过更强的可靠性和更完善的审计机制来弥补;一个适应性较弱的系统,可以通过清晰定义使用边界来管理失败风险;一个影响度高的系统,可以通过提高其他维度的要求来管理风险。

安全性的失效是非补偿性的。一个在其他六维上表现出色的智能体,如果有一个安全漏洞可以让攻击者劫持它的行为,那个漏洞的存在会让所有其他维度的优秀表现失去意义——因为你不知道你在任何时刻看到的那个"优秀表现",是不是已经被操纵过的结果。

安全性评分必须达到满分,这不是苛刻的要求,而是最基本的诚实。一个"99 分安全"的智能体,和一个"100 分安全"的智能体之间的差距,不是一分的差距,而是"有没有可利用漏洞"的差距。

05把一把螺丝刀当七套工具用

VERITAS 揭示的,是"质量"在智能体领域的重新定义。

在传统软件里,质量是一个相对同质的概念——系统按规格工作的程度。在智能体领域,质量是多维异质的——不同类型的质量问题,有着根本不同的性质和危害方式,不能被同一把尺子测量。

一个理解了 VERITAS 的产品团队,会把"提升质量"这个模糊的目标,分解成七个独立的有针对性的工作:可验证性是信息架构问题,可解释性是设计问题,可靠性是工程稳定性问题,影响度是风险治理问题,可信度是用户预期管理问题,适应性是鲁棒性工程问题,安全性是专门的安全工程问题。

七个问题,对应七类不同的专业能力和工作方法。把它们混在一个准确率数字里,是在假装一把螺丝刀可以解决所有问题。