01那场让人尴尬的复盘会议
那是一家有八百人规模的制造业集团,HR 总监林晓玲在年终汇报时展示了一张让她颇感自豪的幻灯片:过去一年,公司完成了全员 AI 工具培训,参与率 94%,满意度评分 4.2/5,人均完成课时 23.6 小时。
然而在场的 CTO 王铭安问了一个问题,让这场汇报陷入沉默:"我能不能看看,经过这些培训,团队里有多少人能够独立完成一个跨工具的自动化流程?"
没有人能够立刻回答这个问题。因为整套培训体系的设计,从头到尾都没有测量过这件事。测量的是参与率、完课率、满意度——这些指标都是关于"有没有接受培训"的,而不是关于"能不能用 AI 完成工作"的。
林晓玲随后做了一个简单的问卷调查。她问了两个问题:第一,你能独立使用三个以上 AI 工具完成日常工作任务?第二,你能设计一个让 AI 自动完成完整业务流程的方案?第一题,72% 的人回答"能";第二题,回答"能"的只有 9%。
这个数字落差,恰好揭示了一个在 AI 能力培训领域被系统性忽视的问题:使用工具的能力,和编排系统的能力,是两种几乎没有关联的能力。用了多少工具、学了多少技巧,完全不能预测一个人是否能够设计可靠的智能体系统。
02能力结构比能力等级更重要
在大多数 AI 能力评估框架中,问题被简化为"这个人的 AI 能力是初级还是中级还是高级"。这个框架的隐含假设是:AI 能力是一维的,可以用单一分数或等级描述。
这个假设是错的。
想象两个人。第一个人,理解力极强——她深入了解 LLM 的工作原理,能够准确预判 AI 在哪类问题上会失败,能够分析幻觉产生的机制,能够评估不同模型的能力边界。但她很少使用 AI 工具,对提示词工程了解有限,从未设计过自动化流程。第二个人,使用力极强——他每天使用二十多个 AI 工具,对各类提示词技巧烂熟于心,产出效率极高。但他对 AI 系统的底层原理几乎一无所知,无法判断什么时候 AI 的输出是可信的。
这两个人,哪个 AI 能力更强?答案取决于岗位需求。如果你需要的是一个能够快速使用 AI 工具提升个人生产力的执行者,答案是第二个人。如果你需要的是能够评估 AI 系统风险、设计可靠流程的架构师,答案是第一个人。用单一等级无法区分这两种完全不同的能力结构。
智能体素养评估模型(Agent Literacy Assessment)建立在一个核心判断上:AI 能力的本质是四维独立的,每个维度回答一个独立的问题,而这四个问题之间的相关性很低。
03四个维度的独立含义
理解力(Understanding),回答的问题是:你知道 AI 什么时候会失败吗?这个维度测量的是认知层面的 AI 知识深度——了解模型的工作机制、能力边界、失效模式。L1 的人对 AI 一无所知;L5 的人能够在没有实验的情况下,准确预判特定场景下的失败概率。
使用力(Usage),回答的问题是:你能把 AI 用好吗?这个维度测量的是操作层面的工具使用熟练度——提示词设计、工具选择、输出迭代。L1 的人偶尔使用 AI 工具;L5 的人能够让 AI 稳定产出接近专家水准的输出,跨场景适用。
编排力(Orchestration),回答的问题是:你能让 AI 系统替你完成完整流程吗?这个维度测量的是流程设计层面的系统搭建能力——工具链组合、流程自动化、多步任务分解。L1 的人只能单步使用工具;L5 的人能够设计稳定运行的多智能体流程,处理真实业务场景。
设计力(Design),回答的问题是:你能为组织构建可持续的 AI 能力吗?这个维度测量的是组织层面的能力建设能力——框架设计、评估体系、团队培养。L1 的人没有系统性思考 AI 能力建设;L5 的人能够设计整套组织级 AI 能力发展体系并推动落地。
04五个等级的行为锚定
每个维度细分为五个等级,每个等级对应具体的可观察行为,而不是抽象的描述。这是能力评估框架的核心设计原则:等级必须能够被验证,不能依赖自我报告。
以编排力为例,五个等级的行为锚定如下:L1,从未设计过多步 AI 流程,只会单工具使用;L2,能设计简单的两步流程,但需要人工在步骤间传递数据;L3,能设计完整的工具链,流程能自动运行,但遇到边界情况会崩溃;L4,能设计带容错机制的流程,能处理常见的异常情况,流程在生产环境稳定运行;L5,能设计自适应流程,能根据输入动态调整执行路径,能在新场景快速迁移。
这种行为锚定的好处是:评估结果可以被验证——你可以给一个人一个真实的编排任务,观察他的行为,然后对应到等级描述上,而不需要相信他的自我评估。这在 AI 能力评估中尤其重要,因为自我感知和实际能力之间的落差往往非常大。
林晓玲后来发现,她的团队里有很多人在使用力上是 L3-L4,但在编排力上是 L1-L2。这意味着他们能够很好地使用单个 AI 工具,但完全无法设计系统。这两种能力的差距,恰好解释了为什么培训效果看起来很好,但业务实际产出没有改变。
05三种能力结构特征
当你把一个人或团队的四维评分画成雷达图时,会出现三种典型的结构特征,每种结构在不同岗位有不同的价值。
均衡型(Balanced Profile):四维评分大致相当,整体等级均匀。这种结构适合需要全面能力的角色,例如 AI 项目经理——他需要理解风险(理解力)、能使用工具(使用力)、能设计流程(编排力)、也能推动组织能力建设(设计力)。但均衡型通常意味着没有某个维度特别突出,在需要深度专业能力的岗位上价值有限。
偏科型(Skewed Profile):某一维度显著高于其他维度。这种结构在特定岗位上具有极高价值,但需要精准的岗位匹配。设计力极强的人,放在需要推动组织 AI 能力建设的战略岗位上,是不可替代的;放在需要快速执行的工具使用岗位上,会感到无聊和浪费。
极化型(Polarized Profile):两个维度极高,两个维度极低,形成对角线分布。例如理解力 + 设计力高,使用力 + 编排力低——这种人是优秀的 AI 策略师,但无法亲自落地执行。这种结构需要团队配合,单独工作效率很低,与互补型搭档配合则效率极高。
06差异化培训投资原则
在清楚了能力结构之后,一个自然的问题出现了:应该优先培养哪个维度?
传统答案是:哪里弱补哪里。但这个答案在 AI 能力培训上几乎总是错的。
使用力培训的投资回报周期最短、投资金额最低,但能力本身的市场价值衰减最快——因为 AI 工具本身在快速进化,今天需要熟练掌握的技巧,明年可能被工具本身的自动化取代。大量的企业培训预算投入在这里,是一种系统性的错误配置。
编排力培训的投资回报周期较长,学习曲线陡峭,但能力形成后的市场价值最高,且不易被工具进化所替代——因为编排力本质上是流程思维和系统设计能力,这些能力会随着 AI 工具的进化而得到放大,而不是被替代。
设计力培训通常不适合大规模开展——因为这种能力的上限由个人的系统思维深度决定,不适合以工具培训的方式推广。更有效的方式是识别出组织里少数天然具有设计力倾向的人,给他们提供深度的知识输入和实践项目,而不是试图把所有人都培训到 L3 以上。
因此,合理的培训投资策略是:为全员提供基础的使用力培训(L2→L3),为关键岗位人员提供编排力专项培训(L2→L4),为潜力人员提供设计力培育项目(少数人深度投入)。理解力的培养则贯穿全程,通过项目实践自然积累,而非单独开课。
07岗位—维度匹配矩阵
不同岗位对四维能力的需求结构有显著差异。盲目追求"四维均衡"是一种资源浪费,因为大多数岗位只需要某几个维度达到特定等级,其他维度只需要基线水平。
AI 执行类岗位(内容创作、数据处理、客服等):使用力 L3+,理解力 L2+,编排力和设计力不作要求。这类岗位的核心价值在于高效产出,工具熟练度是关键,系统设计能力不在这里创造价值。
AI 流程工程类岗位(自动化工程师、流程设计师等):编排力 L4+,理解力 L3+,使用力 L3+,设计力 L2+。这类岗位是整个 AI 时代最稀缺的岗位类型——既需要深度的系统设计能力,又需要能够亲自落地执行。
AI 策略类岗位(AI 负责人、转型顾问等):设计力 L4+,理解力 L4+,编排力和使用力 L2+ 即可。这类岗位的核心价值在于帮助组织做出正确的 AI 能力建设决策,深度的工具使用能力对决策质量的影响有限。
林晓玲在完成了全员评估后,按照这个矩阵重新设计了团队的培训计划。AI 流程工程类岗位的候选人,被送去参加为期三个月的编排力强化项目;策略类岗位的候选人,被纳入每月一次的深度案例研讨;执行类岗位的培训则简化为一套自学工具包,预算削减了 60%。
08团队能力结构的互补性
当评估从个人扩展到团队时,还需要引入一个新的分析维度:团队内部的能力互补性。
一个理想的 AI 团队,不需要每个人都是均衡型。实际上,由四种不同偏科型成员组成的团队,往往比由四个均衡型成员组成的团队效能更高——因为每个人都在自己最强的维度上工作,而不是在四个维度上都做到"还可以"。
团队能力图谱分析的关键问题是:四个维度上,团队是否都有 L4+ 的覆盖?这个问题比"平均等级是多少"更重要。一个编排力平均 L2 的团队,即使在其他维度平均 L4,也无法稳定产出需要流程自动化的工作——因为编排力是那类工作的瓶颈,而不是平均数。
王铭安在听完林晓玲的评估报告后,做了一个决定:他要求每个 AI 相关项目组,在立项时提交一份四维能力图谱,说明团队在四个维度上的分布,以及是否存在瓶颈维度。这成为了公司 AI 项目立项审批的必要文件之一。
09L3 编排力:最值得投资的跃升
在五个等级中,有一个跃升被反复证明是最具决定性意义的:从编排力 L2 到 L3。
L2 的人能够设计两步流程,但步骤之间需要人工传递数据。这意味着他们的工作虽然有 AI 辅助,但流程本质上还是人工的——AI 只是一个工具,而不是一个系统。
L3 的人能够设计完整的工具链,流程能够自动运行。这意味着 AI 从"工具"变成了"系统"——一旦流程设计好,它可以在没有人工干预的情况下稳定运行,处理批量任务,产生可复用的能力资产。
这个跃升改变的不只是个人效率,而是工作的性质。L2 的工作是"使用 AI 完成任务";L3 的工作是"让 AI 系统完成任务"。前者的产出与时间线性相关;后者的产出与投入时间解耦——一个良好设计的流程,可以在你睡觉时持续运行。
这也是为什么编排力培训投资回报最高:这个跃升一旦完成,工作模式就发生了结构性变化,而不是量的改进。
10评估不是终点,而是起点
林晓玲最终完成了那份报告,但这次她的幻灯片展示的不是参与率和满意度,而是一张四维能力分布热图:八百人的团队,在四个维度上的 L1-L5 分布情况,以及对应的岗位匹配缺口。
CTO 王铭安看了很长时间。然后他说:"这才是我想知道的东西。"
能力评估不是为了给人贴标签,也不是为了排名。它的唯一价值,在于指导资源的差异化配置:把培训预算投入到最有杠杆效应的维度,把合适的人放到最匹配的岗位,在团队组建时有意识地构建能力互补性。
不做评估的培训,是盲目的。做了评估但不改变资源配置的,是徒劳的。评估的价值在于它引发的决策,而不是评估本身。
智能体素养评估模型的最终目的,是让组织能够用数据回答一个问题:我们在 AI 能力建设上投入的每一分钱,是否真的在提升我们需要的能力结构?这个问题,比参与率和满意度重要得多。
01一百个提示词技巧救不了你
在 AI 能力培训的市场里,有一类课程极受欢迎:"如何写出更好的提示词"。各种框架、模板、技巧、秘诀——"角色扮演法"、"思维链提示"、"少样本学习"……学员花大量时间学习和练习这些技巧,并且确实能够获得更好的单次对话输出质量。
然后,这些学员被分配到一个真实的 AI 项目:他们需要设计一个能够稳定运行的智能体系统,处理实际业务流程,面对真实用户的各种输入,在系统出现问题时进行有效调试。
他们发现,之前学到的所有提示词技巧,对这些工作的帮助极其有限。能否写出优秀的提示词,和能否构建一个可靠的智能体系统,是两种几乎没有关联的能力。
02能力结构比能力等级更重要
本框架创新:建立智能体协作能力的四维独立评估模型,以"能力结构图"替代"能力等级评分"作为核心评估输出;提出"结构比等级更重要"作为 AI 人才评估的核心原则。
在讨论 AI 能力评估时,大多数框架关注的是"等级"问题——这个人的 AI 能力是初级、中级还是高级?这种单维度的等级评估,可以对个人的总体能力水平给出一个粗略的判断,但完全无法指导岗位匹配。
原因在于,AI 协作能力不是一个单维度的能力,而是由多个相对独立的能力维度构成的复合能力。不同维度的能力,需要通过完全不同的学习路径来发展,也对应完全不同的岗位需求。
一个"使用力 L4 但编排力 L2"的人,和一个"使用力 L2 但编排力 L4"的人,如果用单一的总体能力等级来衡量,可能被评为"相当"——但他们适合的岗位完全不同。前者适合需要高质量直接产出的创意类工作,后者适合需要构建和管理 AI 系统的工程类工作。把他们放错位置,不只是浪费,而是让双方都陷入挫败。
03四个相对独立的能力维度
FALA 把 AI 协作能力分解为四个相对独立的评估维度,每个维度都有自己独立的成熟度路径。
使用力(Usage Proficiency)
与 AI 工具和智能体进行高质量交互的能力。包括:能否准确表达复杂的意图、能否有效地提供上下文信息、能否评估和迭代输出质量、能否在不同任务类型下选择适合的工具和交互方式。提示词技巧主要属于这个维度,但这个维度本身在四个维度里影响面最窄。高使用力帮助你和 AI 协作产出高质量的单次结果,但不能帮助你构建系统、管理系统或评估系统。
编排力(Orchestration Capability)★ 最稀缺
设计和管理人机协作工作流的能力。包括:能否把复杂业务需求分解为可以由 AI 处理的子任务、能否设计多步骤的工作流并处理各步骤之间的信息传递、能否处理工作流中的例外情况和边界条件、能否评估并持续优化工作流的整体表现。这是 F33 中 L3 能力的核心,也是当前最稀缺的能力维度。
判断力(Critical Judgment)
在 AI 辅助工作中保持批判性思维的能力。包括:能否识别 AI 输出中的错误、偏见和不合理之处、能否在 AI 建议和人类判断之间做出有质量的权衡、能否识别 AI 适合和不适合做判断的场景边界。高判断力的人,在 AI 时代越来越有价值——因为随着 AI 能力提升,验证和把关 AI 输出的能力,比生成 AI 输出的能力更稀缺。
学习力(Adaptive Learning)
持续追踪 AI 能力发展并更新自身工作方式的能力。这个维度评估的是元能力——"学习 AI 的能力",而不是某个特定 AI 工具的掌握程度。
04能力结构图比单一评分更有指导价值
四维能力结构图把一个人在四个维度上的当前水平以雷达图(蜘蛛图)的形式呈现,而不是给出一个总体评分。这个呈现方式的价值,体现在两个具体的应用场景里。
应用一:岗位匹配
不同的岗位,对四个维度的需求权重完全不同。内容创作类岗位需要高使用力,AI 工程类岗位需要高编排力,AI 治理类岗位需要高判断力,AI 战略类岗位需要高学习力。用结构图而不是总体评分来做岗位匹配,能够识别出"总分相似但结构完全不同"的候选人,把他们放到真正适合的位置。
应用二:个人发展规划
知道自己在哪个维度薄弱,比知道自己的总体"AI 能力等级"更有指导价值。编排力 L2 的人,需要的不是更多的提示词练习(那只会提升使用力),而是参与真实的 AI 工作流设计项目,在实践中积累编排能力。两条发展路径,在方向上是根本不同的。
05用单一维度的熟练程度替代多维能力结构——AI 时代的认知错误
能力结构评估法揭示的,是 AI 时代人才培养和使用中一个系统性的认知错误:用单一维度的熟练程度,替代了多维度的能力结构。
这个错误来自一个隐含的假设:AI 能力是单一的,所有类型的 AI 工作都需要同样的能力,只是深度不同。因此,培训就是让人们学习更多、更深的 AI 技能,评估就是看掌握了多少工具、多少技巧。
但 AI 协作能力是多维的,不同维度之间的相关性很低,每个维度需要不同的学习方式,也对应不同的价值创造方式。
把一个高编排力、低使用力的工程师,放进一个注重内容产出质量的岗位,和把一个高使用力、低编排力的创作者,放进一个需要构建 AI 系统的岗位,都是浪费——但在只用总体等级评估的框架下,这类错配很难被提前发现。
T1理论来源与学术引证
以下为本框架的理论基础说明,提炼自正文中的理论注释块。
本框架创新:建立智能体协作能力的四维独立评估模型,以"能力结构图"替代"能力等级评分"作为核心评估输出;提出"结构比等级更重要"作为 AI 人才评估的核心原则。
T2框架定位与适用边界
本框架是管理实践工具,为高管和研究者提供结构化分析视角,不提供可直接验证的因果预测。其有效性依赖于:分析者对所在行业的深度认知、可获取的组织数据质量、以及将分析结论与具体决策场景相结合的能力。
智能体时代的框架有一个共同的时效性问题——AI 技术演化速度快于传统战略框架的更新周期。建议每 12–18 个月对本框架的核心假设进行一次复盘,检视其前提条件是否仍然成立。