可逆性必须在流程设计阶段考虑"是核心操作原则。" />
模块三 · 产品重写 / F18 模型级 · 所有产品重写框架 →

可治理信任模型 CATER — Governable Trust Five-Dimension Model CATER

用户相信这个 AI 很聪明——但他们不知道出了问题有没有人管。
能力信任说的是"它能做到",治理信任说的是"做错了有人负责"。高风险场景里,后者才是决定性的。

DEF ·区分能力信任与治理信任,从可控(C)/ 可审计(A)/ 透明(T)/ 可解释(E)/ 可逆(R)五维度判断 Agent 是否值得托付——其中"可逆性必须在流程设计阶段考虑"是核心操作原则。

核心问题
能力很强 ≠ 可以托付——治理信任五维如何系统评估?
体系定位
第六层 · 负责回答「智能体值不值得信任地有用」,是高价值场景的产品准入门票。
使用时机
Agent 进入高风险场景前的评审 · 金融/医疗/法律合规设计 · 可逆性流程设计 · 事后责任归因
F18 · CATER 五维治理信任
P2
C 可控性 A 可审计 T 透明性 E 可解释 R 可逆性 ★ CATER · trust
五维治理信任(不同于 VERITAS 的能力信任)★ R 可逆性 — 最被低估的维度

01业务负责人踩了刹车——但说不出具体的技术原因

许多企业在向高价值业务场景引入智能体时,都会经历一个特定的决策困境:技术评估的结果是正面的——准确率达标,系统稳定,用户测试反馈良好。但在最终的上线决策会上,相关业务负责人还是踩了刹车。

他们说不出一个具体的技术原因,但他们的直觉是正确的。他们感受到的,是一种超出技术评估维度的不安这个系统在正常情况下看起来很好,但如果它在某个关键时刻出错了,我们有没有足够的手段发现、阻止和处理?

这不是对 AI 能力的不信任,这是对 AI 治理的不信任。它们是两种本质不同的信任,但现有的智能体评估框架几乎全部集中在能力维度,对治理维度几乎没有系统性的思考。

02两种信任为什么必须分开来理解

理论来源:社会信任理论(卢曼,Trust and Power,1979);AI 可解释性研究领域(XAI,2016 年起系统化)。
本框架创新:将社会学信任理论的"能力信任 / 系统信任"二元结构引入智能体产品设计,构建专门针对"治理信任"的五维 CATER 评估模型,并提出"可逆性必须在流程设计阶段考虑"作为核心操作原则。

在人际关系里,能力信任和治理信任通常是绑定在一起的——当你信任一个人能做好某件事,你也在某种程度上信任如果他做错了,社会关系和规范会提供某种形式的追责和修复机制。人有名字、社会关系、职业声誉,这些构成了一张隐形的治理网络

智能体没有这张网络。它没有社会身份,没有声誉约束,没有改正动机。当智能体出错时,"它知道自己错了"不会发生,"它会感到羞愧并努力弥补"不会发生,"下次它会记住这个教训"在没有刻意设计的情况下也不会发生。

这意味着,对智能体的治理信任,无法从能力信任自然延伸出来,它必须被显式设计和显式验证。当一个组织在考虑是否把重要的业务决策交给智能体时,他们实际上在回答两个独立的问题:这个智能体能不能做好(能力问题),以及当它做不好的时候,有没有足够完善的机制确保危害可控(治理问题)。

在低风险场景里,第二个问题可以被忽略——做错了重来就行。在高风险场景里,第二个问题往往比第一个更重要。

03把治理信任拆解成可以设计的维度

要构建对智能体的治理信任,首先需要把"治理信任"这个模糊的概念拆解成可以被具体设计和评估的维度。

C · 可控性(Controllable)

在任意时刻,人类是否可以接管智能体的控制权,暂停、调整或终止它的行为?可控性不是一个功能,而是整个产品架构的基础设计原则——它要求在系统的每一个执行节点上,都存在一个人类可以介入的接口。

A · 可审计性(Auditable)

智能体的所有决策和行动是否有完整的日志记录,可以被追溯和审查?可审计性解决的是"已经发生了什么"的问题,它是事后责任归因和系统改进的基础。

T · 透明性(Transparent)

智能体在做什么,目前处于什么状态,正在使用什么数据,这些信息是否对相关人员可见?透明性是实时监督的基础。没有透明性,智能体的运行对监督者来说是黑盒,可控性也就失去了意义——你无法控制你看不见的东西。

E · 可解释性(Explainable)

智能体的判断逻辑是否可以被用户以有意义的方式理解?这和 VERITAS 中的可解释性维度有重叠,但在 CATER 里它服务于治理目标——人类监督者需要能够理解智能体的推理,才能判断一个决定是否需要被干预。

R · 可逆性(Reversible)

当智能体产生了错误的结果,这些结果是否可以被撤销或补偿?这是整个框架中最被低估的维度,也是在实践中最难做到的。

04可逆性:最难做到也最容易被忽视的维度

可逆性的挑战在于时机它必须在业务流程设计阶段就被考虑,而不是在问题发生后才想怎么回滚。

一旦某些操作已经发生——资金已经转出、合同已经签署、邮件已经发送给一万个用户——"回滚"要么不可能,要么代价巨大。可逆性设计要求在每一个智能体可能产生不可逆影响的操作节点上,在操作执行前就建立人工审批或延迟执行机制,同时提前设计好"补偿事务"——如果这个操作必须被撤销,补偿的流程是什么、责任由谁承担、技术上如何实现。

所有不可逆操作,必须前置人工审批——这不是一个可以根据置信度动态调整的规则,而是一个硬性要求。智能体的高置信度不等于操作的可逆性,这是两个独立的属性。

05高价值场景的真正门槛

CATER 揭示的,是智能体产品在高价值场景落地的真正门槛

大量智能体产品在低风险场景里表现不错,但一旦试图进入真正高价值的业务场景(金融决策、医疗建议、法律合规、客户关系管理),就会遇到一堵难以穿越的信任之墙。这堵墙不是因为能力不够,而是因为治理缺位

能力让智能体变得有用,治理让智能体变得可以被信任地有用。前者是进入市场的门票,后者是进入高价值场景的门票。

一个没有强治理机制的能力很强的智能体,在高风险场景里是危险的——因为它的强能力会制造一种"可以信任"的错觉,但当它出错时,治理机制的缺失会让损害变得难以控制。