---
name: execution-chain-diagnosis
version: 2.0
framework: 智能体管理学 · 模块四 · 框架F22
type: 分析型
description: >
  当用户提到Agent调试、执行链路、输出质量差、意图理解偏差、
  检索不准、工具调用失败、决策偏差、级联故障时触发本SKILL。
governance_nerves: [边界与升级]
upstream_frameworks: [F20_TripleE工程方法]
downstream_frameworks: [F25_评测矩阵, F26_PRT质量门禁]
---

# F22 系统执行链路模型（PRT四环诊断）

## SKILL定位

Agent系统质量80%可在四环链路中定位到具体环节。

**核心判断：最终输出不好是症状，不是诊断。必须逐环排查。**

四环链路：Prompt意图理解 → Retrieval信息检索 → Tool工具调用 → Decision决策生成

任何一个环节失败会向后级联放大。第一环的10%误差，到第四环可能变成50%的输出偏差。

---

## 信息采集（INPUT模板）

```
【问题描述】
- 具体表现：____
- 发生频率：（总是/偶尔/特定场景）
- 影响范围：____

【Agent配置】
- Agent类型：____
- 使用的模型：____
- 工具集：____
- 知识库：____

【已知信息】
- 已排除的环节：____
- 已尝试的修复：____
- 相关日志：____

【复现条件】
- 典型输入示例：____
- 期望输出：____
- 实际输出：____
```

---

## 执行分析引擎（S1-S4四步法）

### S1：四环链路定位

**目标**：识别问题出在哪一环

**逐环诊断指标**：

| 环节 | 正常指标 | 异常信号 | 诊断方法 |
|------|---------|---------|---------|
| P-意图理解 | 意图识别准确率>95% | 答非所问、误解需求 | 对比用户原始输入与Agent理解 |
| R-信息检索 | 相关文档命中率>80% | 引用错误信息、遗漏关键信息 | 检查检索结果与查询的相关性 |
| T-工具调用 | 工具选择正确率>90% | 调用错误工具、参数错误 | 审查工具调用日志 |
| D-决策生成 | 输出质量评分>4.0/5.0 | 逻辑错误、自相矛盾 | 评估最终输出的合理性 |

**诊断流程**：
```
Step 1: 检查P环——Agent是否正确理解了用户意图？
  → 如果P环失败：问题在Prompt设计或上下文注入
  → 如果P环通过：继续检查R环

Step 2: 检查R环——Agent是否检索到了正确信息？
  → 如果R环失败：问题在知识库或检索策略
  → 如果R环通过：继续检查T环

Step 3: 检查T环——Agent是否正确调用了工具？
  → 如果T环失败：问题在工具定义或参数映射
  → 如果T环通过：问题在D环

Step 4: 检查D环——Agent是否基于正确信息做出了正确决策？
  → 如果D环失败：问题在推理逻辑或输出格式
```

**输出模板**：
```
S1链路定位：
- 问题环节：P/R/T/D（选一个或多个）
- 环节内具体问题：____
- 级联影响：____
- 诊断置信度：____%
```

### S2：根因分析

**目标**：深入定位问题的根本原因

**各环常见根因**：

**P环（意图理解）根因**：
- System prompt缺少角色定义
- 缺少few-shot示例
- 上下文窗口被无关信息污染
- 多轮对话中意图漂移

**R环（信息检索）根因**：
- 知识库内容缺失或过时
- 检索策略不匹配（语义vs关键词）
- Chunk切分不合理
- 元数据标签缺失

**T环（工具调用）根因**：
- 工具描述不清晰
- 参数类型定义模糊
- 工具返回格式不一致
- 缺少错误处理逻辑

**D环（决策生成）根因**：
- 推理链过长导致信息丢失
- 缺少结构化输出约束
- 置信度校准偏差
- 缺少兜底策略

**输出模板**：
```
S2根因分析：
- 一级根因：____
- 二级根因：____
- 根因类型：（设计缺陷/配置错误/数据问题/模型限制）
- 影响链路：____→____→____
```

### S3：修复方案设计

**目标**：制定针对性的修复方案

**修复方案模板**：

| 优先级 | 修复项 | 预期效果 | 实施难度 | 验证方式 |
|--------|--------|---------|---------|---------|
| P0 | ____ | ____ | 高/中/低 | ____ |
| P1 | ____ | ____ | 高/中/低 | ____ |
| P2 | ____ | ____ | 高/中/低 | ____ |

**输出模板**：
```
S3修复方案：
- P0修复（立即）：____
  预期效果：____
  验证方式：____
- P1修复（本周）：____
  预期效果：____
  验证方式：____
- P2修复（本月）：____
  预期效果：____
  验证方式：____
```

### S4：验证与监控

**目标**：确保修复有效且不引入新问题

**验证矩阵**：
- 修复后立即运行相关Golden Task
- 检查修复是否影响其他环节
- 建立该场景的回归保护
- 设置监控告警

**输出模板**：
```
S4验证计划：
- 验证任务：____
- 回归检查范围：____
- 监控指标：____
- 告警阈值：____
- 回滚条件：____
```

---

## 输出格式

```
# 执行链路诊断报告

## 一、问题概述
- 现象：____
- 影响范围：____

## 二、链路定位
- 问题环节：P/R/T/D
- 环节内定位：____

## 三、根因分析
- 根本原因：____
- 影响链路：____

## 四、修复方案
- P0：____
- P1：____
- P2：____

## 五、验证计划
- 验证方式：____
- 回归保护：____

## 六、预防建议
- 长期改进：____
- 监控增强：____
```

---

## 治理神经检查

### 边界与升级检查
- [ ] 问题是否超出技术诊断范畴（如涉及业务逻辑错误）？
- [ ] 是否需要升级到F01竞争重写（业务方向问题）？
- [ ] 是否需要升级到F07组织设计（协作流程问题）？
- [ ] 模型能力限制是否需要更换基础模型（F19架构评估）？

---

## 质量自检

- [ ] 是否逐环排查而非直接跳到结论？
- [ ] 根因分析是否追溯到最底层？
- [ ] 修复方案是否有明确的验证方式？
- [ ] 是否考虑了级联效应？
- [ ] 是否建立了回归保护？
- [ ] 是否区分了"症状"和"根因"？

---

## 典型误区

| 误区 | 正确理解 |
|------|---------|
| "输出不好就是模型不行" | 80%的问题不在模型，在链路的其他环节 |
| "加更多上下文就能解决" | 上下文过多可能污染P环，需要精准注入 |
| "工具调用失败就是工具的bug" | 可能是T环的参数映射或描述问题 |
| "修好一个案例就完了" | 没有回归保护的修复等于埋雷 |
| "Prompt写得好就不会出错" | Prompt只是P环的一部分，上下文管理同样关键 |

---

## 框架衔接

### 向上衔接
- **F20 TripleE工程方法**：Golden Task是链路诊断的测试用例基础

### 向下衔接
- **F25 评测矩阵**：链路诊断结果指导评测矩阵的维度设计
- **F26 PRT质量门禁**：修复后需要PRT进行回归保护

### 横向关联
- **F21 Skill资产治理**：T环问题往往指向Skill定义质量
- **F23 AEA架构评估**：系统性链路问题可能需要架构层面调整
- **F24 ADLC开发生命周期**：链路诊断是ADLC评估驱动迭代阶段的核心活动