成本×质量×性能"的本质性制约。" />
模块五 · 价值重写 / F28 工具级 · 所有价值重写框架 →

智能体运营指标金字塔 Three-Dimensional SLI/SLO Pyramid 3DSP

传统运维指标正常,但智能体的核心价值正在悄悄流失——你没有察觉。
一个系统的可用性是 99.9%,但它完成的任务里有 40% 没有产生实际价值。这是成功还是失败?传统指标体系告诉你是成功,用户体验告诉你是失败。

DEF ·可用性(底层)→ 效能(中层)→ 质量稳定性(顶层)三层金字塔建立 Agent 服务指标与 SLO——揭示三层之间存在"成本×质量×性能"的本质性制约

核心问题
系统在正常运行,但价值真的在产生吗?三层指标如何同时被追踪?
体系定位
第二层 · 负责回答「Agent 服务的指标体系如何分层」
使用时机
Agent 系统运营仪表盘设计 · 月度运营回顾结构 · 面向管理层的 AI 价值汇报 · 产品/工程/业务对齐机制
F28 · 三层指标金字塔
P4
顶层
质量稳定性指标Quality Stability
P50/P90/P99 输出质量分位数 · 退化预警 · 跨场景一致性。
中层
效能指标 ★Efficiency · 新增
任务真实完成率(结果层)· CPTA · Override 率。传统 SRE 无法覆盖的三个新维度。
底层
可用性指标Availability · 继承自 SRE
延迟 · 错误率 · 吞吐量——必要条件但不充分。只看这层会产生"指标全绿但价值流失"管理盲点。
三层递进,效能层是 Agent 时代新增三层间制约:成本×质量×性能不可同优

01"指标全绿但价值流失"——技术与业务的盲点

企业在部署智能体系统之后,通常会建立一套监控仪表盘。仪表盘上最常见的指标:系统可用性(99.9%,优秀)、平均响应时间(1.2 秒,达标)、错误率(0.3%,良好)。每次运营周报,这三个指标都是绿色的。

但在同一段时间里,业务侧发现了一个令人困惑的问题:引入智能体之后,预期的业务效率提升没有出现。用户确实在使用智能体,响应也够快,也没什么明显的错误,但最终的业务产出没有改变——有时候甚至更差了。

技术团队和业务团队各执一词,谁也说服不了谁,因为他们用的是完全不同的衡量体系,而这两个体系之间没有连接。技术指标显示系统在正常工作,业务指标显示系统没有产生价值。两件事都是真的,但没有一个框架能把它们放在一张图里同时看清楚。

02SRE 指标体系为什么对智能体不够用

理论来源:谷歌 SRE 黄金指标理论(《Site Reliability Engineering》,Google 工程团队,2016);服务级别指标/服务级别目标体系(SLI/SLO)。
本框架创新:在 SRE 指标体系基础上,增加智能体系统三个新指标维度——任务真实完成质量、单位成本效能、输出质量稳定性,构建三层指标金字塔;揭示三层之间的本质性制约关系。

站点可靠性工程(SRE)是 Google 在 2003 年前后系统化的工程实践体系。SRE 提出的黄金指标——延迟、流量、错误率、饱和度——已经成为现代互联网基础设施运维的标准语言。

这套指标体系的价值是真实的,但它有一个隐含的设计前提:服务的价值可以用"正确完成了多少请求"来衡量。一个 API 请求,要么成功(HTTP 200),要么失败。

智能体系统打破了这个前提。一个智能体"成功完成"了一个任务(没有报错,在正常延迟内返回了结果),和这个任务"产生了真实的业务价值",是两件完全不同的事。传统 SRE 指标只能衡量前者,而后者才是企业真正关心的。

更深的问题是:智能体系统还引入了一个传统 IT 系统几乎不需要考虑的成本维度——每次任务执行都有直接的算力成本(以 Token 为单位),而这个成本和任务的业务价值之间的关系,是非线性的、需要主动管理的。

03三层指标金字塔

智能体运营指标金字塔把智能体系统的运营健康状态,分解为三个层次递进、相互制约的指标维度。

底层·可用性指标(Availability Layer)

延迟、错误率、吞吐量——继承自传统 SRE 体系的技术性指标。这是整个金字塔的基础,是运营质量的必要条件。没有稳定的可用性,上面两层都无从建立。但这层指标只是入场券,在智能体系统里单独看这层指标,会产生严重的管理盲点。

中层·效能指标(Efficiency Layer)

任务真实完成率(结合 JTBO 的结果层定义,不只是"任务被执行了",而是"业务目标被实现了")、单次成功任务成本(CPTA,把所有相关成本分摊到每个真正完成的任务上)、人工 Override 率(用户推翻 AI 决策的频率,这是可靠性信任的晴雨表)。

顶层·质量稳定性指标(Quality Stability Layer)

P50/P90/P99 的输出质量分位数(追踪大多数用户的体验,而不只是平均值)、质量退化预警信号(在退化明显之前,分布变化的早期信号)、跨场景一致性(相同类型的任务,在不同上下文下的表现差异)。

04三层之间的本质性制约关系

这个框架最重要的洞察,不是三个独立的指标维度,而是它们之间存在一种无法被消除、只能被管理的本质性制约关系。

降低成本往往损害质量。最直接的成本优化手段——减少 Token 消耗、使用更轻量的模型、压缩上下文长度——几乎都会在某种程度上影响输出质量。把成本优化到极限,质量通常也到了它的下限。

提升质量往往增加成本。为了提高输出质量,通常需要更丰富的上下文、更多的工具调用、更复杂的推理链——这些都会增加 Token 消耗和调用成本

提升性能可能降低质量。为了加快响应速度,可能需要简化推理过程、减少检索步骤、使用更快但不那么精准的模型——这些都可能影响输出质量的深度和准确性

这三组制约关系,意味着智能体运营不存在"把所有指标都优化到最好"的解。每一次运营决策,本质上都是在这三个维度之间做出明确的权衡取舍。没有意识到这个权衡关系的团队,会发现自己在优化一个维度时,另一个维度在悄悄退化,而他们不知道为什么。

05系统在运行 ≠ 系统在产生价值

智能体运营指标金字塔揭示的,是企业在 AI 系统运营上最普遍的认知错误:把"系统在正常运行"等同于"系统在正常产生价值"。

传统软件运维里,这两件事的差距很小——系统正常运行意味着用户可以正常使用功能,功能被使用通常意味着产生了某种价值。这个逻辑链条在传统软件里基本成立。

在智能体系统里,这个逻辑链条断了。系统正常运行,只是价值产生的必要条件,不是充分条件。智能体可以在技术上"正常运行",同时在业务上"没有产生有效价值"——它在高效率地做了大量无效的工作

认识到这个断裂,意味着运营团队需要把工作重心从"保证系统可用"向"保证系统有效"扩展。这不是技术工作量的增加,而是运营思维方式的根本转变。