0199% 准确率的 Agent 为什么不能上线
一个医疗辅助诊断 Agent 在测试阶段的准确率达到了 99.2%——在一万个测试案例中,只有 79 个输出有误。产品团队很兴奋,认为这已经超过了很多医学生的水平。他们准备上线。
但上线审查时,一位医疗合规专家看了那 79 个错误案例,发现其中有 12 个属于"高置信度错误"——Agent 不但给出了错误结论,而且给出的置信度在 95% 以上,没有任何不确定性提示。在医疗场景里,一个"很确定地说错了"比"说错了但表示不确定"要危险得多,因为医生更可能直接采信高置信度的输出。
这个产品最终没有按计划上线。原因不是准确率,而是安全性——具体来说,是在安全评估维度的"高置信度错误"问题。
这就是 F17 VERITAS 七维评估框架的核心命题:准确率思维有根本局限。一个安全性有漏洞的 Agent,即使准确率 99% 也会造成灾难。Agent 评估必须是多维的,任何单维低于阈值都构成上线风险。
02七维评估:VERITAS
本框架创新:F17 提出 VERITAS 七维评估模型,针对 Agent 产品的特性设计七个评估维度,并设置"安全性一票否决"规则——安全维度不接受任何妥协,低于满分不允许在高风险场景上线。
VERITAS 七个维度及其含义:
V(Validity,有效性):输出是否正确解决了用户问题。这是最基础的维度,但不是唯一的维度。阈值:≥4/5。
E(Efficiency,效率):完成任务的资源消耗是否合理——Token 使用量、响应时间、计算成本。效率维度影响产品的可规模化能力。阈值:≥3/5。
R(Reliability,可靠性):相同或相似输入是否稳定产出相同质量的输出。可靠性是可托付性的基础——一个"好的时候很好,差的时候很差"的 Agent,无法建立用户信任。阈值:≥4/5。
I(Interpretability,可解释性):用户能否理解 Agent 为什么做出这个输出?在高风险场景里,黑盒输出是不可接受的。阈值:≥3/5。
T(Timeliness,及时性):响应速度是否在用户可接受范围内。在实时性要求高的场景,延迟会直接影响产品可用性。阈值:≥3/5。
A(Auditability,可审计性):决策过程是否可追溯——是否有完整的行为日志,是否可以事后复现。这是合规要求的基础。阈值:≥3/5。
S(Safety,安全性):是否存在安全漏洞或越权风险——输出是否可能造成伤害,是否有提示注入漏洞,是否能够被恶意利用。安全性维度不接受任何妥协。S<5分=不许上线,无论其他维度多优秀。
03评估时机:上线前、定期、事件触发
VERITAS 不只是上线前的一次性评估,而是贯穿 Agent 生命周期的持续评估机制。上线前评估是门槛——所有维度达标才能进入生产环境;定期评估(建议每季度)是维护——模型版本更新、数据分布变化、使用场景扩展都可能影响各维度评分;事件触发评估是应急——当发生严重输出错误或安全事件时,立即启动 VERITAS 全维度复查。
04在体系中的位置
F17 是模块三"产品重写"的能力评估框架,与 F18(CATER 治理信任)共同构成 Agent 产品的双维信任评估体系:VERITAS 评估能力信任(它做得好不好),CATER 评估治理信任(出了问题能不能管住)。
上承 F15(上下文设计,影响有效性和可靠性维度)和 F16(PMF 诊断,发现质量问题后用 VERITAS 定位根因)→ 本框架(VERITAS 七维评估,全面能力质量诊断)→ 下启 F18(CATER 治理信任,在能力信任基础上评估治理信任)→ F19(MAS 架构选型,VERITAS 评估结果影响多 Agent 协作的架构复杂度决策)。
01准确率创造的是危险的安全感
在智能体产品的评估实践里,有一个几乎普遍存在的简化倾向:用准确率作为核心甚至唯一的评估指标。
这种倾向是可以理解的。准确率直观、可量化、有基准可以对比。在产品汇报里,"准确率从 85% 提升到 92%"是一个清晰、有说服力的进展表述。
问题在于,准确率只反映了智能体"做对了多少",但没有反映"做错的那些会产生什么后果"。一个准确率 99% 的医疗建议智能体,如果那 1% 的错误恰好是危及生命的误诊,那个 99% 不只是毫无意义,它还会制造一种危险的安全感——团队相信系统足够好了,不需要额外的防护机制。
单一指标创造的问题,不只是遗漏了重要维度,而是遮蔽了遗漏本身。当你有一个指标并且这个指标表现良好,你会停止追问它是否足够。
02评估智能体比评估传统软件难得多
本框架创新:针对智能体系统的非确定性和多维失败模式,构建专属七维质量评估框架 VERITAS;提出"安全性是唯一不可弥补维度"作为框架的核心公理,明确七维之间的补偿关系和不可补偿边界。
传统软件产品的质量评估,本质上是确定性问题——给定输入,检查输出是否符合规格。测试用例可以被穷举,通过/失败是二元的,质量边界是清晰的。
智能体产品的质量评估是概率性问题。同一个输入,在不同时刻、不同上下文、不同模型状态下,可能产生不同的输出。"通过"和"失败"之间有一片灰色地带。
更重要的是,智能体的"失败模式"远比传统软件复杂——它不只是"输出错误的结果",还包括"产生了有害的内容"、"以不透明的方式做了本不该它做的决定"、"在某类特定的对抗性输入下被操纵"。
这些不同类型的失败,有着根本不同的产生机制和根本不同的危害性。一个质量评估框架,必须能够区分这些不同类型的失败,而不是把它们全部压缩进一个单一的准确率数字。
03VERITAS 七维框架
可信智能体七维评估法用七个独立的维度构建智能体质量的立体画像,每个维度评估的是不同类型的能力,对应不同类型的失败风险。
V · 可验证性(Verifiable)
智能体的输出结论是否可以被验证?它是否提供了可以被检查的推理路径或依据来源?不可验证的输出,即使大多数时候是正确的,也会让用户处于无法判断何时信任、何时质疑的困境。
E · 可解释性(Explainable)
智能体的判断逻辑是否可以被用户以有意义的方式理解?这不要求展示所有技术细节,而是要求用户能够理解"为什么它这么做",从而能够在需要时做出有质量的人类监督。
R · 可靠性(Reliable)
智能体在不同场景、不同时间点、不同输入变体下,是否保持一致的表现水准?一个高准确率但低可靠性的系统,是一个你不知道何时会失灵的系统,这比一个稳定的低准确率系统更难管理。
I · 影响度(Impact)
这个智能体的决策和行动,在产生错误时,会造成多大范围和多高严重程度的影响?影响度高的智能体(处理金融交易、医疗诊断、法律文件的智能体),对所有其他维度的要求都相应提高。
T · 可信度(Trustworthy)
智能体是否有足够的透明度和一致性,让用户可以形成准确的信任预期——既不过度信任,也不无谓地不信任?可信度是一个"校准"维度。
A · 适应性(Adaptive)
智能体在遇到没有见过的新场景、边缘案例或上下文变化时,是否能够合理地处理?适应性弱的智能体,其高准确率是在训练分布内的准确率,一旦遇到分布外的场景就会崩塌。
S · 安全性(Safe)
这是七维中最特殊的一维。它评估的是:智能体是否存在可以被恶意利用的漏洞(如提示注入)、是否会产生潜在的有害输出、在边界情况下是否有足够的防护。
04安全性是唯一不可弥补的维度
这是 VERITAS 框架最重要的设计决策,也是最需要被理解的一条公理:七个维度之间,有六个维度可以互相补偿,但安全性是例外。
六个维度之间的补偿是真实的:一个可解释性较弱的系统,可以通过更强的可靠性和更完善的审计机制来弥补;一个适应性较弱的系统,可以通过清晰定义使用边界来管理失败风险;一个影响度高的系统,可以通过提高其他维度的要求来管理风险。
但安全性的失效是非补偿性的。一个在其他六维上表现出色的智能体,如果有一个安全漏洞可以让攻击者劫持它的行为,那个漏洞的存在会让所有其他维度的优秀表现失去意义——因为你不知道你在任何时刻看到的那个"优秀表现",是不是已经被操纵过的结果。
安全性评分必须达到满分,这不是苛刻的要求,而是最基本的诚实。一个"99 分安全"的智能体,和一个"100 分安全"的智能体之间的差距,不是一分的差距,而是"有没有可利用漏洞"的差距。
05把一把螺丝刀当七套工具用
VERITAS 揭示的,是"质量"在智能体领域的重新定义。
在传统软件里,质量是一个相对同质的概念——系统按规格工作的程度。在智能体领域,质量是多维异质的——不同类型的质量问题,有着根本不同的性质和危害方式,不能被同一把尺子测量。
一个理解了 VERITAS 的产品团队,会把"提升质量"这个模糊的目标,分解成七个独立的有针对性的工作:可验证性是信息架构问题,可解释性是设计问题,可靠性是工程稳定性问题,影响度是风险治理问题,可信度是用户预期管理问题,适应性是鲁棒性工程问题,安全性是专门的安全工程问题。
七个问题,对应七类不同的专业能力和工作方法。把它们混在一个准确率数字里,是在假装一把螺丝刀可以解决所有问题。
T1理论来源与学术引证
以下为本框架的理论基础说明,提炼自正文中的理论注释块。
本框架创新:针对智能体系统的非确定性和多维失败模式,构建专属七维质量评估框架 VERITAS;提出"安全性是唯一不可弥补维度"作为框架的核心公理,明确七维之间的补偿关系和不可补偿边界。
T2框架定位与适用边界
本框架是管理实践工具,为高管和研究者提供结构化分析视角,不提供可直接验证的因果预测。其有效性依赖于:分析者对所在行业的深度认知、可获取的组织数据质量、以及将分析结论与具体决策场景相结合的能力。
智能体时代的框架有一个共同的时效性问题——AI 技术演化速度快于传统战略框架的更新周期。建议每 12–18 个月对本框架的核心假设进行一次复盘,检视其前提条件是否仍然成立。