邱懿武 · 智能体的社会科学 · 02 管理学
略懂AI

管理学研究了一百年管人,现在遇到了一个新问题

第 4 / 9 篇

管理学研究了一百年“管人”,现在遇到了一个新问题

一、一个在企业里正在发生的真实困惑

我在给企业做智能体系统设计的时候,经常遇到一个很具体的问题。

一家公司花了几个月,把智能体部署进了他们的日常运营流程。智能体运行了一段时间之后,会出现一些他们没有预料到的情况——不是灾难性的失败,而是那种微妙的“跑偏”:它开始在某些场景下给出超出预期边界的建议,或者在某类问题上持续输出一种不太对劲的语气,或者在它理应熟悉的任务上,突然有一次表现得像没见过这个问题一样。

这时候,负责这个智能体的人——通常是某个业务负责人或者IT团队——会面临一个很奇怪的困境:他们不知道该怎么“管”这个问题。

如果是一个人类员工出现类似的情况,管理者有一套成熟的应对逻辑:找他谈谈,搞清楚原因,给反馈,调整预期,必要时换岗位。这套逻辑成立,是因为人类员工是一个可以沟通的主体,有自己的内部状态,对外部反馈会产生反应。

但面对一个智能体,这套逻辑的每一步都开始变得奇怪。你不能“找它谈谈”,它没有内部状态可以解释给你听,它对你的批评没有任何反应——除非你改变了它的输入,或者重新定义了它的规则。

这个困境不是技术问题,而是管理学问题。

我们用来理解“如何管理一个工作中的个体”的那套知识,是为人类设计的。它的每一个工具——岗位说明书、绩效考核、组织架构、反馈机制——背后都有一套关于“被管理者是什么样的”的假设。当被管理的对象换了,这些工具还能用,但用起来总有些地方不顺手。

这篇想聊的,就是那些“不顺手”的地方究竟意味着什么。

二、管理学是用来做什么的

要理解智能体给管理学带来了什么新问题,需要先回到管理学存在的根本原因。

十九世纪末,弗雷德里克·泰勒在美国的工厂里做了一系列研究,发展出了“科学管理”理论。他的核心洞察是:工人的工作效率是可以被测量、被优化、被标准化的。通过把工作分解成最小单元、为每个单元设定标准时间、用测量来驱动改进,管理者可以大幅提升工厂的整体产出。

泰勒的理论在当时是一场革命,但它建立在一个特定的假设上:工人的不确定性主要来自“努力程度不稳定”和“方法不科学”,而这两个问题可以通过激励和培训来解决。科学管理的本质,是用标准化来压缩人类行为的不确定性。

二十世纪中期,彼得·德鲁克提出了另一场管理学革命。他观察到,知识工作者和体力工作者是根本不同的——你不能用秒表测量一个程序员的生产率,你不能用标准动作来规范一个分析师的工作。对知识工作者的管理,需要的不是标准化,而是“目标设定”加“自主执行”加“结果评估”。这套逻辑演化成了后来无数管理工具的基础。

从泰勒到德鲁克,有一个深层的共同点:管理学的每一次演进,都是在回应一种新型“工作者”的出现——这种新的工作者,用旧的管理工具来管会有问题,需要新的理论框架。

体力工作者→知识工作者→智能体工作者,这是同一条线上的第三步。

但这第三步,和前两步有一个关键的不同:前两步,被管理的对象始终是人,有欲望、有疲惫、有成长、有理由不努力也有理由全力以赴。管理的本质,是在利用和约束这些人类特性。第三步,被管理的对象第一次变成了一个没有欲望、不会疲惫、不会成长也不会衰退的系统——管理的底层逻辑必须被重新想过。

三、岗位说明书:它真正的功能是什么

几乎每家公司都有岗位说明书(JD),但大多数人对它的理解是错的。

最常见的误解是把JD理解为“这个人要干什么的清单”。但JD真正的功能,是在企业和员工之间建立一份关于“期望”的契约——它规定边界:你负责这里,不负责那里;你交付这个,不交付那个。一份好的JD,它最重要的内容往往不是写进去的,而是它通过边界的设定所隐含的“不在这里”的东西。

这个逻辑,在智能体的定义上有一个非常直接的对应——但大多数企业在部署智能体的时候,都跳过了这一层,只定义了“这个智能体能做什么”,而没有认真定义“它不应该做什么”“它在什么情况下必须停下来等待人工判断”。

真正完整的智能体定义,应该包含三个层次。

第一层是任务边界:这个智能体被期望处理哪类任务,在什么样的场景里运作。这一层大多数人都会写。但任务边界有一个容易被忽略的维度,是“边缘情况”——当它遇到它的能力边界时,应该怎么处理?是拒绝、是降级处理、还是请求人工介入?没有明确定义边缘情况的任务边界,是不完整的。

第二层是交付标准:什么叫做“这个任务完成得好”?这不只是格式要求,而是质量判断标准。一份分析报告,什么程度算“可以直接用于决策”,什么程度算“需要人工复核的参考材料”,这个标准如果不被显性化,管理者就无法真正评估智能体的表现,智能体也无法真正“知道”自己应该做到什么程度。

第三层是授权范围:这个智能体被允许调用哪些数据,被允许做哪些类型的判断,哪些决定必须由人来最终确认。这一层在现有的智能体部署里最容易被忽略,也最容易在出问题的时候引发争议。没有清晰授权范围的智能体,要么因为过于保守而没有用,要么因为超越了应有的边界而产生风险——而管理者往往在出了事之后才意识到这件事从一开始就没有想清楚。

这三层合在一起,构成的不是一个“功能清单”,而是一份“人机契约”。

这个词我觉得是准确的。它意味着:定义一个智能体,不只是技术工作,而是一个需要管理层级认真参与的契约制定过程。就像一份好的雇佣合同不只是HR部门的事,它需要用人部门、法务、管理者共同确认——智能体的定义,同样不应该只是工程师在键盘上完成的事情。

四、绩效管理:期望对齐,不是打分

管理学里被误用最多的模块,大概是绩效管理。

KPI和绩效考核在大多数公司里被理解为“考核工具”——年底打个分,决定奖金和晋升。但它的本质功能其实不是考核,而是“期望校准”:让管理者和员工在“什么叫做做好了”这件事上持续对齐。当这个对齐做得好,绩效系统是有价值的;当它退化成一个每年填一次表的仪式,它就变成了一种负担。

把这个逻辑用到智能体评估上,会得到一个关键的认知转变:智能体评估不应该是一个事后的打分动作,而应该是贯穿整个生命周期的持续对齐过程。

这意味着几件具体的事。

评估标准要在构建之前就确立,不是做完了再想怎么评。在定义“这个智能体要输出什么”的时候,就应该同时定义“什么样的输出算合格,什么样的算不合格”。这一步被跳过的后果,是部署之后没有人能清晰地说出“它表现好不好”,只能靠模糊的感觉——这和没有KPI就开始管人一样,问题迟早会暴露。

评估要区分“上线前的验收”和“上线后的持续监控”,这两件事的逻辑是不同的。上线前的验收,类似于员工入职时的试用期评估,主要检验“它能不能完成定义中的任务”;上线后的持续监控,检验的是“它在真实使用中是否保持稳定,有没有开始漂移”。智能体有一个人类员工没有的特性:它不会因为疲劳或情绪而表现起伏,但它会因为输入分布的变化、或者某些边界情况的积累,出现一种缓慢的、不容易被察觉的行为漂移。这种漂移如果没有系统性的监控机制,往往是在出了问题之后才被发现。

评估结果要驱动具体的后续动作,不只是记录。表现稳定且满足标准的智能体,进入常规维护;出现漂移或者分数下降的,触发具体的优化流程;长期低于预期且场景已经发生变化的,需要被认真讨论是优化还是退役。这套分支逻辑,和人类员工的绩效管理有清晰的对应——但它需要被显性地设计进智能体的运营流程,而不是留给“出了问题再说”。

五、一个HR完全没有答案的新问题

以上这些,都是把管理学的成熟逻辑迁移到智能体语境上。它们有用,但有一个地方,是现有管理学体系给不出答案的——而我认为这恰好是智能体管理学里最需要认真对待的原创性问题。

当一个人和一个智能体共同完成了一项工作,产生的价值该如何归因?

这个问题比它初听起来更复杂。

在知识工作的场景里,协作产出的价值归因一直是个难题——一份策略报告是三个人写的,绩效该怎么算,这已经很难了。但至少,这三个人的每一个都有自己的利益,会主动声明自己的贡献,会在有争议的时候提出异议。

智能体不会主张自己的贡献。它生成了一份分析,人类审阅了它并基于它做了决策——这个过程里,人的价值是什么,智能体的价值是什么,中间的交互产生了什么新的价值?目前没有好的方法来测量这件事。

这不只是一个学术问题。它会在非常实际的地方产生影响:如果公司引入智能体之后,某个团队的产出提升了,这个提升应该被计入这个团队的绩效,还是计入“智能体工具”的投资回报?如果一个人借助智能体完成了一个他原本无法独立完成的复杂任务,这件事让他变得更有价值了,还是让他的角色开始变得可替代了?

这两个方向的答案,会产生截然不同的组织管理决策。

更根本的一层是:管理学一百年来一直假设,你在管理的对象是“想要有价值”的——人类员工有职业发展的需求,有被认可的渴望,有对自身价值的主张。正是这种“想要有价值”的特性,让激励机制、晋升路径、绩效反馈这些工具能够运作。

智能体不“想要”任何东西。它没有职业成就感,不在乎被认可,对自己的“价值”没有任何主张。这意味着驱动它表现的全部力量,来自外部——来自定义它的人、评估它的系统、调整它的机制。把所有驱动力外部化,是一种完全不同的管理逻辑,而管理学至今没有真正研究过这种情况。

六、混合组织:最难的问题还没有出现

我在很多企业里看到的现状是:人和智能体在同一个工作流程里,但被当作两套完全平行的系统在管理。人有人的绩效管理,智能体有自己的监控看板,两者之间没有一套整合性的“混合组织管理逻辑”。

这种平行管理在初期说得过去,因为智能体的比重还小,还没有到影响整体组织设计的程度。但随着智能体深入进更多的核心流程,这种平行状态会越来越难以为继——你会开始遇到这样的问题:当一个工作流程的关键节点由智能体承担,这个节点的“管理者”是谁?当一个人类员工的工作内容因为引入了智能体而发生了根本性的变化,这个员工的岗位如何重新定义,他的绩效如何重新评估?

这些不是将来才需要想的问题。对于任何已经在认真使用智能体的企业来说,这些问题正在以各种具体形式出现,而大多数人在用临时的、case by case的方式处理它们,而不是用一套系统性的框架。

我没有一套完整的答案。但我越来越相信,真正需要被建立的,不是“智能体管理工具”——那只是在旧框架上打补丁——而是一套“混合组织管理学”,它从头开始问:当一个组织的工作者同时包含有欲望的人类和无欲望的系统,这个组织的运行逻辑应该是什么?

这个问题,德鲁克没有答案,泰勒也没有答案。但在未来几年里,有大量的企业会在真实的代价里,摸索出这个答案的大致形状。

那个摸索的过程,本身就值得被认真记录和研究。

下一篇,我们离开组织内部,往外看一步,进入社会学的维度:智能体正在悄悄制造什么样的新型不平等?