---
name: triple-e-engineering
version: 2.0
framework: 智能体管理学 · 模块四 · 框架F20
type: 决策型
description: >
  当用户提到Agent开发方法论、评测驱动开发、Eval优先、实验管理、
  脚手架设计、Golden Task、概率性系统工程时触发本SKILL。
governance_nerves: [意图管理, 边界与升级]
upstream_frameworks: [F19_Agent架构评估]
downstream_frameworks: [F21_Skill资产治理, F25_评测矩阵, F26_PRT质量门禁]
---

# F20 E³评测驱动开发模型（Triple-E）

## SKILL定位

Triple-E是专为概率性输出系统设计的工程方法论。传统敏捷的三个前提——确定性输出、可精确定义DoD、通过即发布——在Agent开发中全部失效。

**核心判断：Eval质量是Agent工程能力最重要的单一指标。**

"先跑再说，后补质量"是最危险的反模式，补救成本是前置投入的3-5倍。

Triple-E三支柱：
- **Eval-Informed**：评测先行，用Golden Task Set定义"好"的标准
- **Experiment-Driven**：实验驱动，所有变更必须经过受控实验
- **Scaffolding-First**：脚手架优先，先搭建护栏再放开能力

---

## 信息采集（INPUT模板）

当用户提出Agent开发相关问题时，按以下模板采集信息：

```
【项目基本信息】
- Agent类型：（对话型/任务型/混合型）
- 当前阶段：（概念验证/开发中/已上线/迭代优化）
- 团队规模：____人
- 已有评测体系：（有/无/部分）

【当前痛点】
- 最突出的问题：____
- 已尝试的方案：____
- 失败原因分析：____

【质量现状】
- 是否有Golden Task Set：（有/无/不明确）
- 评测覆盖率估计：____%
- 上线后故障频率：____

【约束条件】
- 时间约束：____
- 预算约束：____
- 技术约束：____
```

---

## 执行分析引擎（S1-S4四步法）

### S1：现状诊断——Eval成熟度评估

**目标**：评估当前Agent项目的评测工程成熟度

**诊断维度与评分锚点**：

| 维度 | 1分（初始级） | 3分（规范级） | 5分（优化级） |
|------|-------------|-------------|-------------|
| Golden Task覆盖 | 无或<10个 | 20-50个，覆盖核心路径 | 100+，三层覆盖完整 |
| 评测频率 | 上线前一次性 | 每次发布前 | 每次提交自动触发 |
| 实验管理 | 无记录 | 有实验日志 | Experiment Registry完整 |
| 脚手架完备性 | 无护栏 | 基础guardrails | 六组件完整 |
| 回归检测 | 手动抽检 | 半自动 | 全自动PRT |

**输出模板**：
```
S1诊断结果：
- 总体成熟度：__/5
- 最薄弱维度：____
- 关键差距：____
- 建议优先级：____
```

### S2：Golden Task Set构建规划

**目标**：设计或优化Golden Task Set的结构

**构建指南**：

| 类别 | 占比 | 数量范围 | 说明 |
|------|------|---------|------|
| 核心场景 | 60% | 12-60个 | 高频使用路径，必须100%通过 |
| 边界场景 | 30% | 6-30个 | 异常输入、边界条件、格式变异 |
| 高风险场景 | 10% | 2-10个 | 安全敏感、合规要求、品牌风险 |

**每个Golden Task的结构**：
```yaml
- id: GT-001
  category: core|edge|risk
  input: "用户输入描述"
  expected_behavior: "期望行为描述"
  evaluation_criteria:
    - criterion_1: "评分标准"
    - criterion_2: "评分标准"
  pass_threshold: 0.8
  tags: [功能标签]
```

**输出模板**：
```
S2 Golden Task规划：
- 总任务数：____个
- 核心场景：____个（占____%）
- 边界场景：____个（占____%）
- 高风险场景：____个（占____%）
- 优先构建的Top 5任务：____
- 预计构建周期：____
```

### S3：Experiment Registry设计

**目标**：建立实验管理体系

**Experiment Registry四字段**：

| 字段 | 说明 | 示例 |
|------|------|------|
| hypothesis | 假设——变更预期带来什么效果 | "更换prompt模板将提升意图识别准确率5%" |
| design | 实验设计——如何验证假设 | A/B测试，各100条Golden Task |
| result | 结果——实际数据 | 通过率82%→87%，+5% |
| decision | 决策——基于结果做什么 | 采纳，合入主分支 |

**实验类型矩阵**：
- Prompt实验：调整system prompt、few-shot示例
- 模型实验：切换基础模型、调整参数
- Skill实验：修改工具调用逻辑、增删技能
- 架构实验：调整编排流程、增加guardrail

**输出模板**：
```
S3实验管理方案：
- 当前实验数量：____
- 待验证假设：____
- 实验设计：____
- 预期指标变化：____
- 决策标准：____
```

### S4：脚手架六组件部署

**目标**：设计完整的安全脚手架

**脚手架六组件**：

| 组件 | 功能 | 实现方式 |
|------|------|---------|
| Input Validator | 输入校验 | 格式检查、长度限制、敏感词过滤 |
| Output Filter | 输出过滤 | 合规检查、PII脱敏、品牌一致性 |
| Confidence Gate | 置信度门禁 | 低于阈值时触发人工审核 |
| Fallback Handler | 降级处理 | 失败时的兜底策略 |
| Audit Logger | 审计日志 | 全链路记录，支持回溯 |
| Rate Limiter | 限流控制 | 防止资源滥用和级联故障 |

**输出模板**：
```
S4脚手架方案：
- 已有组件：____
- 缺失组件：____
- 优先部署：____
- 实施顺序：____
- 预计完成时间：____
```

---

## 输出格式

完成S1-S4后，输出《Triple-E工程方案》：

```
# Triple-E工程方案

## 一、现状评估
- Eval成熟度：__/5
- 核心差距：____

## 二、Golden Task Set规划
- 规模与结构：____
- 优先级排序：____

## 三、实验管理体系
- Registry设计：____
- 首批实验：____

## 四、脚手架部署计划
- 六组件状态：____
- 部署优先级：____

## 五、实施路线图
- 第1周：____
- 第2-4周：____
- 第2-3月：____

## 六、风险提示
- 最大风险：____
- 缓解措施：____
```

---

## 治理神经检查

### 意图管理检查
- [ ] 用户的真实需求是否是"提升Agent质量"而非"建立评测体系"？
- [ ] 是否存在将Triple-E作为银弹的倾向？
- [ ] 团队是否具备执行Triple-E的能力基础？

### 边界与升级检查
- [ ] 问题是否超出工程方法论范畴（如涉及组织变革）？
- [ ] 是否需要升级到F02组织重写或F06商业模式？
- [ ] 技术实现细节是否需要交由工程团队？

---

## 质量自检

完成分析后，用以下清单自检：

- [ ] 是否明确区分了"评测"和"测试"的概念？
- [ ] Golden Task Set的三层覆盖比例是否合理？
- [ ] Experiment Registry是否包含完整的四字段？
- [ ] 脚手架六组件是否有明确的实现路径？
- [ ] 是否给出了可执行的优先级而非泛泛建议？
- [ ] 是否标注了不确定性和需要验证的假设？

---

## 典型误区

| 误区 | 正确理解 |
|------|---------|
| "评测就是写单元测试" | Agent评测是概率分布验证，不是确定性断言 |
| "Golden Task越多越好" | 质量>数量，20个精选任务优于100个随意任务 |
| "脚手架限制了Agent能力" | 脚手架是能力的放大器，没有护栏的能力是风险 |
| "实验失败就是浪费" | 失败实验的决策价值可能高于成功实验 |
| "Triple-E只适用于大团队" | 3人团队同样需要，只是规模不同 |

---

## 框架衔接

### 向上衔接
- **F19 Agent架构评估**：架构选型决定了评测的维度和标准
- **F01 竞争五力重写**：竞争格局决定了质量标准的优先级

### 向下衔接
- **F21 Skill资产治理**：Golden Task中的能力需要标准化为Skill
- **F25 评测矩阵**：Golden Task Set是评测矩阵的数据基础
- **F26 PRT质量门禁**：实验结果需要PRT进行回归保护

### 横向关联
- **F22 执行链路诊断**：链路诊断帮助定位Golden Task失败的根因
- **F24 ADLC开发生命周期**：Triple-E是ADLC的核心工程方法