F28 · 智能体运营指标金字塔 (3DSP)

F28 · 三层指标金字塔

顶层

质量稳定性指标Quality Stability

P50/P90/P99 输出质量分位数 · 退化预警 · 跨场景一致性。

中层

效能指标 ★Efficiency · 新增

任务真实完成率（结果层）· CPTA · Override 率。传统 SRE 无法覆盖的三个新维度。

底层

可用性指标Availability · 继承自 SRE

延迟 · 错误率 · 吞吐量——必要条件但不充分。只看这层会产生"指标全绿但价值流失"管理盲点。

三层递进，效能层是 Agent 时代新增三层间制约：成本×质量×性能不可同优

01"指标全绿但价值流失"——技术与业务的盲点

企业在部署智能体系统之后，通常会建立一套监控仪表盘。仪表盘上最常见的指标：系统可用性（99.9%，优秀）、平均响应时间（1.2 秒，达标）、错误率（0.3%，良好）。每次运营周报，这三个指标都是绿色的。

但在同一段时间里，业务侧发现了一个令人困惑的问题：引入智能体之后，预期的业务效率提升没有出现。用户确实在使用智能体，响应也够快，也没什么明显的错误，但最终的业务产出没有改变——有时候甚至更差了。

技术团队和业务团队各执一词，谁也说服不了谁，因为他们用的是完全不同的衡量体系，而这两个体系之间没有连接。技术指标显示系统在正常工作，业务指标显示系统没有产生价值。两件事都是真的，但没有一个框架能把它们放在一张图里同时看清楚。

02SRE 指标体系为什么对智能体不够用

理论来源：谷歌 SRE 黄金指标理论（《Site Reliability Engineering》，Google 工程团队，2016）；服务级别指标/服务级别目标体系（SLI/SLO）。
本框架创新：在 SRE 指标体系基础上，增加智能体系统三个新指标维度——任务真实完成质量、单位成本效能、输出质量稳定性，构建三层指标金字塔；揭示三层之间的本质性制约关系。

站点可靠性工程（SRE）是 Google 在 2003 年前后系统化的工程实践体系。SRE 提出的黄金指标——延迟、流量、错误率、饱和度——已经成为现代互联网基础设施运维的标准语言。

这套指标体系的价值是真实的，但它有一个隐含的设计前提：服务的价值可以用"正确完成了多少请求"来衡量。一个 API 请求，要么成功（HTTP 200），要么失败。

智能体系统打破了这个前提。一个智能体"成功完成"了一个任务（没有报错，在正常延迟内返回了结果），和这个任务"产生了真实的业务价值"，是两件完全不同的事。传统 SRE 指标只能衡量前者，而后者才是企业真正关心的。

更深的问题是：智能体系统还引入了一个传统 IT 系统几乎不需要考虑的成本维度——每次任务执行都有直接的算力成本（以 Token 为单位），而这个成本和任务的业务价值之间的关系，是非线性的、需要主动管理的。

03三层指标金字塔

智能体运营指标金字塔把智能体系统的运营健康状态，分解为三个层次递进、相互制约的指标维度。

底层·可用性指标（Availability Layer）

延迟、错误率、吞吐量——继承自传统 SRE 体系的技术性指标。这是整个金字塔的基础，是运营质量的必要条件。没有稳定的可用性，上面两层都无从建立。但这层指标只是入场券，在智能体系统里单独看这层指标，会产生严重的管理盲点。

中层·效能指标（Efficiency Layer）

任务真实完成率（结合 JTBO 的结果层定义，不只是"任务被执行了"，而是"业务目标被实现了"）、单次成功任务成本（CPTA，把所有相关成本分摊到每个真正完成的任务上）、人工 Override 率（用户推翻 AI 决策的频率，这是可靠性信任的晴雨表）。

顶层·质量稳定性指标（Quality Stability Layer）

P50/P90/P99 的输出质量分位数（追踪大多数用户的体验，而不只是平均值）、质量退化预警信号（在退化明显之前，分布变化的早期信号）、跨场景一致性（相同类型的任务，在不同上下文下的表现差异）。

04三层之间的本质性制约关系

这个框架最重要的洞察，不是三个独立的指标维度，而是它们之间存在一种无法被消除、只能被管理的本质性制约关系。

降低成本往往损害质量。最直接的成本优化手段——减少 Token 消耗、使用更轻量的模型、压缩上下文长度——几乎都会在某种程度上影响输出质量。把成本优化到极限，质量通常也到了它的下限。

提升质量往往增加成本。为了提高输出质量，通常需要更丰富的上下文、更多的工具调用、更复杂的推理链——这些都会增加 Token 消耗和调用成本。

提升性能可能降低质量。为了加快响应速度，可能需要简化推理过程、减少检索步骤、使用更快但不那么精准的模型——这些都可能影响输出质量的深度和准确性。

这三组制约关系，意味着智能体运营不存在"把所有指标都优化到最好"的解。每一次运营决策，本质上都是在这三个维度之间做出明确的权衡取舍。没有意识到这个权衡关系的团队，会发现自己在优化一个维度时，另一个维度在悄悄退化，而他们不知道为什么。

05系统在运行 ≠ 系统在产生价值

智能体运营指标金字塔揭示的，是企业在 AI 系统运营上最普遍的认知错误：把"系统在正常运行"等同于"系统在正常产生价值"。

传统软件运维里，这两件事的差距很小——系统正常运行意味着用户可以正常使用功能，功能被使用通常意味着产生了某种价值。这个逻辑链条在传统软件里基本成立。

在智能体系统里，这个逻辑链条断了。系统正常运行，只是价值产生的必要条件，不是充分条件。智能体可以在技术上"正常运行"，同时在业务上"没有产生有效价值"——它在高效率地做了大量无效的工作。

认识到这个断裂，意味着运营团队需要把工作重心从"保证系统可用"向"保证系统有效"扩展。这不是技术工作量的增加，而是运营思维方式的根本转变。

智能体运营指标金字塔 Three-Dimensional SLI/SLO Pyramid 3DSP

01服务器在运行，但用户满意吗

02传统SRE指标的三个盲区

03三层金字塔的结构

04Error Budget：管理三角关系的核心机制

05质量层的测量难题：LLM-as-Judge

06SLO不是越高越好

07回到那个在线教育平台