模块五 · 价值重写 / F27 评估级 · 所有价值重写框架 →

智能体运营五级成熟度模型 AgentOps Five-Level Maturity Model AOMM

你的智能体运营,停在哪一级——大多数企业不知道,也不知道自己不知道。
运营能力的差距,不会在第一天显现。它会在第一年的第六个月,以一场你完全没准备好的故障,突然让你看见。

DEF ·实验级、监控级、量化级、自动化级到自治级,判断企业 Agent 运营能力阶段;M3 → M4 是规模化生产的真正门槛

核心问题
企业的智能体运营能力,目前在哪一级?离 M3 / M4 还有多远,这个距离意味着什么业务风险?
体系定位
价值重写第一层 · 负责回答「智能体系统能否稳定持续地交付价值」
使用时机
智能体系统上线 6 个月后的资源决策 · 年度 AI 战略复盘 + 投资分配 · 评估是否值得规模化某个 Agent 试点 · 故障复盘后的运营能力差距诊断
F27 · AgentOps 五级成熟度阶梯
P5
M1
实验级
运营靠感觉,没有系统监控,问题靠用户投诉发现。系统是黑盒。
Experimental
M2
可监控级
基础日志和告警,但只覆盖技术指标,无质量基准。
Observable
M3 · 分水岭
可量化级
SLI/SLO 体系,业务级质量基准。从"实验性"进入"生产级"。
Measurable ★
M4
可优化级
自动化质量门禁 + Error Budget——M3→M4 是规模化真正门槛。
Optimizable
M5
自治级
系统可自我监控、评估、优化——人类成为系统设计者。
Autonomous
五级递进(高度反映成熟度) M3 = 实验 / 生产分水岭

01一个普遍存在的现象

几乎所有企业在部署智能体系统之后,都会经历一段"蜜月期":系统跑起来了,指标看起来不错,用户反馈积极,团队对成果感到满意。

然后,在某个普通的工作日,一些事情开始出错。可能是某个智能体开始以一种难以解释的方式产生低质量输出,可能是某个关键业务场景的成功率悄悄下滑,可能是成本指标在没有明显原因的情况下异常攀升。

团队开始追查,但发现自己没有足够的数据来定位问题——因为从一开始,就没有建立系统性的监控和分析机制。他们凭着对系统的直觉和对日志的手动翻查,几天后找到了一个可能的原因,修复了它,然后继续等待下一次类似的问题。

这不是个别团队的特殊遭遇,而是运营成熟度停留在低级别的系统性表现

02为什么智能体运营需要独立的成熟度框架

软件运营领域有一套成熟的能力评估体系——从 CMMI 到 SRE 实践,这些框架已经帮助无数企业系统性地提升了软件系统的运营质量。

智能体系统的运营,在几个关键维度上和传统软件运营有根本性的不同,这些不同导致传统框架不能直接套用:

第一,智能体的"好"和"坏"更难测量。传统软件的运营质量,主要体现在可用性、延迟和错误率上。智能体的输出质量是主观的、概率性的、多维度的,任何单一指标都不能完整描述其运营状态。

第二,智能体系统的退化模式是渐进的而非突发的。传统软件通常以"正常运行 / 崩溃"两种状态存在。智能体系统更常见的退化模式,是输出质量的缓慢下滑、成功率的渐进降低——这种退化在早期几乎不可见。

第三,智能体运营需要持续的人类判断介入。传统软件运营可以高度自动化。智能体运营在很多关键节点上,仍然需要人类判断——输出质量的评估、边界情况的处理、模型更新后的重新校准。

理论来源:软件能力成熟度模型(CMMI,卡内基梅隆,1991);站点可靠性工程(SRE,Google 工程团队,2016)。
本框架创新:针对智能体系统的概率性输出和渐进退化特征,构建专属五级运营成熟度模型,将 SRE 的"Error Budget"概念引入智能体质量管理,提出 M3 → M4 的跃迁条件作为规模化生产的关键门槛判断。

03五级运营成熟度

AgentOps 描述的是一个企业从"几乎没有运营能力"到"系统可以自我优化"的完整演进路径。

M1 · 实验级(Experimental):运营靠感觉。没有系统性的监控,问题发现依赖用户投诉或人工观察,处理依赖个人经验。这是绝大多数企业在智能体系统上线初期的真实状态,也是大量企业在系统运行了相当长时间之后仍然停留的状态。

M2 · 可监控级(Observable):建立了基础监控,有日志和告警,可以在问题发生后追溯。但监控覆盖的是基础技术指标(响应时间、错误率),没有系统性的质量指标追踪,问题发现依然滞后,没有量化的质量基准。

M3 · 可量化级(Measurable)★:建立了系统性的质量评估体系,有 SLI(服务级别指标)和 SLO(服务级别目标),能够持续追踪关键业务指标,有明确的质量基准和退化预警机制。

M3 是智能体系统从"实验性产品"到"生产级系统"的关键分水岭。没有达到 M3,智能体系统实际上还处于持续的探索状态,不具备稳定的价值交付能力。

M4 · 可优化级(Optimizable):建立了基于数据的持续优化循环。不只是发现问题,而是能够主动识别优化机会,有自动化的质量门禁(未达标的变更自动被阻止发布),有 Error Budget 管理机制,有系统性的根因分析能力。

M3 到 M4 的跃迁,是大多数企业里最难迈过的一步,因为它要求把质量保障从"事后响应"重构为"前置防护"。

M5 · 自治级(Autonomous):系统可以自我监控、自我评估、自我优化,在预设的边界内不需要持续的人工干预。人类的角色从"运营者"变成"系统设计者和边界定义者"。这是大多数当前企业的长期目标,而非近期可达的现实。

04M3 到 M4:那道最难跨越的门槛

在实践中,M3 和 M4 之间的差距,常常比它们在描述上看起来的要大得多。

M3 意味着:你知道系统现在的状态。M4 意味着:你的系统会主动阻止退化,而不是等你发现退化之后再处理。这个差距,需要两套机制支撑。

第一套是自动化质量门禁:每次代码变更、模型更新或配置修改,都必须通过自动运行的评测集检验,如果任何关键指标退化超过阈值,变更被自动阻止,而不是等上线后发现问题再回滚。这要求评测集足够完善、评测速度足够快、阈值设置足够合理。

第二套是 Error Budget 管理:为每个关键质量维度设定允许的退化预算,当某个维度的预算耗尽,强制暂停该方向的迭代工作,专注于质量修复。这要求团队在"快速迭代"和"保护质量预算"之间建立明确的优先级规则——这是一个需要管理层参与认可的文化和制度变革,不只是技术建设。

05这个框架揭示的底层逻辑

AgentOps 揭示的,是智能体系统的运营质量和业务价值之间存在一个时间滞后的强相关

运营成熟度低的系统,在短期内可能感觉不出问题——系统在跑,用户在用,看起来还不错。但随着时间推移,那些未被系统性追踪的质量退化会积累,那些未被及时发现的边界案例会扩散,那些缺乏系统性根因分析的问题会反复出现。

运营成熟度是一种复利效应的能力——高成熟度的团队,每次出现的问题都在系统性地减少,每次修复都在让系统更强壮;低成熟度的团队,每次出现的问题在重复,每次修复只是临时止血,问题会以不同的形态在不同的时间再次出现。

这个复利效应,在系统运行的第一年并不明显,在第二年开始分化,在第三年会产生难以弥合的差距。