模块五 · 价值重写 / F30 工具级 · 所有价值重写框架 →

单次成功任务成本法 Cost per Successful Task CPST

只算 Token 成本,你严重低估了智能体的真实成本——但这个误判,也可能让你错过未来。
成本计算错了,所有投资决策就都建立在错误的数字上。更糟糕的是,如果成本计算的方向对了,却用了静态而非动态的视角,好的机会可能被提前放弃。

DEF ·计算 Agent 完成一次有效任务的真实成本,包括 Token / 工具调用 / 人工审校 / 运维 / 构建摊销 / 失败 六类——并引入动态视角(每年成本约降 10 倍)。

核心问题
智能体的真实单位成本是多少?我们的 ROI 计算是建立在准确数字上吗?
体系定位
第四层 · 负责回答「Agent 成本应该怎么算才不被误导」
使用时机
AI 项目可行性评估 · Agent 服务定价决策 · 面向 CFO 的 AI 投资汇报 · ROI 计算的准确化
F30 · CPST 六类成本 + 动态视角
custom
类 1

API 调用

Token 费用——最可见的部分,但通常只占 30-50%。

类 2

工具调用

搜索/数据库/API——高频时是主要成本。

类 3

人工审校

L0-L2 场景的真实人力成本,严重被低估。

类 4

运维监控

系统持续运维 + 监控 + 模型再校准——长期持续成本。

类 5

构建摊销

系统开发的初始投入,按周期摊分到任务量。

类 6 ★

失败成本

失败任务消耗的资源没有产生有效输出——纯粹浪费。失败率越高,单位有效任务成本越高。

CPST = (六类成本) ÷ 成功任务数动态视角:今天不经济 → 18-24 月后可能经济

01"AI 成本低于人力成本就值得投入"——这个逻辑哪里错了

当企业评估某个智能体项目是否值得继续投入时,最常见的财务分析框架是:把 API 调用成本加起来,算出每月的 Token 花费,然后和节省的人力成本做比较。如果 AI 成本低于被替代的人力成本,项目有价值;反之,项目需要重新考虑。

这个框架的逻辑看起来清晰,但它有两个相互独立的致命问题

第一个问题是:它严重低估了真实成本。Token 成本,在大多数成熟智能体系统的总成本里,占比可能只有 30% 到 50%,有时候更低。其余的成本——工具调用费用、人工审校时间、系统维护和监控、错误处理和边界案例处理、构建成本的分摊——往往被完全忽略。当你用一个被低估了一倍甚至两倍的成本数字来做决策,所有的投资回报计算都是失真的。

第二个问题是:它用了静态视角。Token 价格每年大约下降 10 倍,今天 CPTA 不经济的项目,18 到 24 个月后可能因为模型成本的急剧下降而变得高度经济。一个基于今天价格的"不经济"结论,可能正在把一个未来竞争优势的来源提前关掉。

02为什么需要"单次成功任务成本"这个新指标

理论来源:单位经济模型(Unit Economics)理论;作业成本法(Activity-Based Costing,卡普兰,1980 年代)。
本框架创新:将单位经济模型的思路引入智能体成本分析,以"成功任务"替代"系统运行"作为成本计量单位;系统性罗列除 Token 之外的五类被忽视成本;引入"动态 CPTA 视角"。

传统 IT 系统的成本分析,通常以"系统运行成本"为单位——服务器费用、带宽费用、人力费用,按月或按年计算,比较容易理解和管理

这个成本单位在智能体系统里有根本性的问题:它没有把成本和价值产出挂钩。一个系统运行成本是每月 10 万元,但如果它成功完成了 1000 个任务,和成功完成了 10000 个任务,这两种情况下这 10 万元的"价值"完全不同,但在"运行成本"这个指标下没有区别。

单次成功任务成本(CPST)把成本计量单位,从"系统运行"切换到"成功任务":把所有相关成本加总,除以真正成功完成的任务数量,得到每个有效产出的完整成本。

这个切换,不只是数学计算方式的改变。它意味着,当一个智能体的任务失败率从 20% 下降到 10%,CPTA 会显著改善,即使 Token 消耗没有减少——因为相同的成本产生了更多的有效成果。优化 CPST 的路径,因此比优化 Token 消耗更广:可以通过减少 Token 消耗、减少任务失败率、降低人工审校时间等多条路径来改善。

03CPST 的完整成本构成

完整计算 CPST,需要把以下六类成本都纳入。

类 1 · 大模型 API 调用成本

直接的 Token 费用,通常是最可见的部分,但不是唯一的部分。包括提示词 Token 和补全 Token,以及不同模型的不同定价。

类 2 · 工具调用成本

很多智能体系统集成了外部工具——搜索 API、数据库查询、专有数据源。这些工具调用通常按次或按量收费,在高调用频率的系统里可能是主要成本来源。

类 3 · 人工审校成本

在高风险或低自主级别(DAL L1-L2)的系统里,人工需要审查并确认智能体的输出或决策。这部分人力成本,是实实在在的机会成本,需要被纳入计算。

类 4 · 运维和监控成本

系统的持续运维、监控体系的维护、定期评测集的运行、模型更新后的重新校准——这些工作需要人力时间,是被严重低估的持续成本。

类 5 · 构建和维护成本的摊销

系统开发的初始投入,需要分摊到系统整个生命周期内处理的任务数量上。一个花了 300 万元开发的系统,如果使用周期是三年,每年处理 10 万个任务,构建成本摊销每任务是 10 元。

类 6 · 失败成本

每一个失败的任务,其消耗的资源(Token、工具调用、人工时间)没有产生有效输出,是纯粹的浪费。失败率越高,有效任务的分摊成本越高。

CPST = (API成本 + 工具成本 + 人工审校成本 + 运维成本 + 构建摊销 + 失败成本) ÷ 成功任务数

04动态 CPST:为什么不能用今天的数字做永久决策

理解了 CPST 的完整构成,还需要理解一个关键的动态因素:大模型推理成本的下降速度,在历史上大约是每年 10 倍量级。

这意味着:一个今天 CPST 为 100 元/任务、因此被认为"不经济"的系统,在 18-24 个月后,如果推理成本下降了 5-10 倍,而其他成本维持不变,CPST 可能降低到 20-30 元/任务——而这个数字,可能已经远低于对应的人力成本。

用今天的 CPST 判断"这个场景值不值得 AI 化",在很多情况下是错误的决策框架。正确的问题是:这个场景的 CPST 在当前价格下是多少,随着模型成本下降,它的 CPST 趋势是什么,在什么时间点会跨越经济性临界值?

这个动态分析需要两个判断:一是当前 CPST 的主要成本构成(如果主要是 Token 成本,则受益于价格下降;如果主要是人工审校成本,则不那么受益);二是这个业务场景的时间敏感性(如果竞争对手也在等价格下降,等待是合理的;如果早期建设有先发优势,等待有隐性代价)。

05两个相反方向的系统性偏差

CPST 揭示的,是智能体投资决策中两个相反方向的系统性偏差,而且两个偏差都普遍存在。

第一个偏差,是低估当前成本——只看 Token 费用,忽略了其他五类成本,认为 AI 比实际上便宜,做出了过于乐观的投资决策,导致系统上线后成本远超预期

第二个偏差,是高估未来成本——用今天的成本静态计算未来的经济性,认为"目前 CPST 不合算,以后也不会合算",错失了在成本曲线下降之前建立能力基础的时间窗口

两个偏差同样有害,但方向相反。CPST 框架的价值,不是给出一个"应该做还是不应该做"的简单答案,而是提供一个足够完整的成本视图,让这个决策建立在准确的信息基础上,同时引入动态视角,避免用静态的今天否定可能性很大的未来。