---
name: prt-quality-gate
version: 2.0
framework: 智能体管理学 · 模块四 · 框架F26
type: 决策型
description: >
  当用户提到概率回归测试、PRT、质量门禁、回归检测、CI/CD集成、
  版本线追踪、统计验证、发布门禁时触发本SKILL。
governance_nerves: [边界与升级]
upstream_frameworks: [F20_TripleE工程方法, F25_评测矩阵]
downstream_frameworks: []
---

# F26 概率回归测试方法（PRT）

## SKILL定位

Agent输出是概率性的，相同输入可能产生不同但同样正确的输出。传统断言精确匹配必然误报。

**核心判断：测试不再是验证代码正确，而是验证概率分布是否在可接受范围内。**

PRT三层测试架构：
- **Golden Task确定性层**：核心场景必须稳定通过
- **统计分布验证层**：评估指标的概率分布
- **回归检测层**：变更前后质量对比

---

## 信息采集（INPUT模板）

```
【测试现状】
- 当前测试方式：____
- 测试覆盖率：____%
- 误报率：____%
- 漏报率：____%

【Agent特性】
- 输出确定性：（高/中/低）
- 模型变更频率：____
- Prompt变更频率：____
- 发布频率：____

【CI/CD现状】
- 是否有CI/CD：（有/无/部分）
- 自动化程度：____%
- 部署频率：____

【质量要求】
- 可接受的质量波动范围：____
- 最大允许回归幅度：____
- 回滚时间要求：____
```

---

## 执行分析引擎（S1-S4四步法）

### S1：三层测试架构设计

**目标**：设计适合Agent的概率性测试架构

**三层架构**：

| 层级 | 目标 | 方法 | 通过标准 |
|------|------|------|---------|
| Golden Task确定性 | 核心功能稳定 | 固定用例、精确匹配或高阈值 | 100%通过 |
| 统计分布验证 | 质量分布合理 | 多次采样、统计分析 | 分布在可接受范围 |
| 回归检测 | 变更无退化 | 前后对比、显著性检验 | 无统计显著退化 |

**Golden Task层设计**：

```yaml
# Golden Task配置
golden_tasks:
  - id: GT-001
    input: "用户输入"
    expected: "期望输出"
    match_type: exact|semantic|rule
    threshold: 0.95
    weight: 1.0
    category: core|edge|risk
```

**统计分布验证层设计**：

```yaml
# 统计验证配置
statistical_validation:
  sample_size: 100  # 每个用例采样次数
  metrics:
    - name: accuracy
      distribution: normal
      mean_threshold: 0.90
      std_threshold: 0.05
    - name: latency
      distribution: log_normal
      p95_threshold: 3000  # ms
```

**回归检测层设计**：

```yaml
# 回归检测配置
regression_detection:
  method: statistical_test  # t-test, mann-whitney, bootstrap
  significance_level: 0.05
  minimum_detectable_effect: 0.03  # 最小可检测效应
  comparison_window: 7d  # 对比时间窗口
```

**输出模板**：
```
S1测试架构：
- Golden Task数量：____个
- 统计验证指标：____个
- 回归检测方法：____
- 三层覆盖评估：____
```

### S2：五条版本线追踪

**目标**：设计多维版本线的回归追踪方案

**五条版本线的回归关注点**：

| 版本线 | 回归风险 | 追踪方法 | 检测重点 |
|--------|---------|---------|---------|
| 模型版本 | 输出风格、能力边界变化 | 模型A/B测试 | 准确性、相关性 |
| Prompt版本 | 意图理解、输出格式变化 | Prompt对比测试 | 一致性、合规性 |
| Skill版本 | 工具调用、能力变化 | Skill集成测试 | 功能正确性 |
| Tool版本 | API兼容性、数据变化 | 接口契约测试 | 数据准确性 |
| Context版本 | 知识准确性、时效性 | 知识验证测试 | 信息准确性 |

**版本变更触发矩阵**：

| 变更类型 | 触发的测试层级 | 测试范围 |
|---------|--------------|---------|
| 模型升级 | 全三层 | 全量Golden Task + 统计验证 + 回归对比 |
| Prompt修改 | Golden Task + 回归 | 相关Golden Task + 前后对比 |
| Skill更新 | Golden Task + 回归 | Skill相关用例 + 集成测试 |
| Tool变更 | Golden Task | Tool相关用例 + 契约验证 |
| Context更新 | 统计验证 | 知识相关用例 + 分布验证 |

**输出模板**：
```
S2版本追踪：
- 追踪的版本线：____条
- 各版本线回归风险：____
- 触发矩阵：____
- 追踪工具：____
```

### S3：CI/CD集成设计

**目标**：将PRT集成到持续集成/持续部署流程

**CI/CD集成流程**：

```
代码/Prompt/Skill提交
  │
  ▼
CI阶段
  ├── 代码检查（Lint、格式）
  ├── 单元测试
  ├── Golden Task子集测试（核心20%）
  └── 快速统计验证（10次采样）
  │
  ▼ CI通过？
  ├── No → 阻断，通知开发者
  └── Yes → 继续
  │
  ▼
Staging部署
  ├── 全量Golden Task测试
  ├── 完整统计验证（100次采样）
  ├── 回归检测（与Production对比）
  └── 人工审核（如需要）
  │
  ▼ Staging通过？
  ├── No → 阻断，分析原因
  └── Yes → 继续
  │
  ▼
Production部署
  ├── 金丝雀发布（5%流量）
  ├── 实时监控
  ├── 渐进式放量（5%→25%→50%→100%）
  └── 自动回滚（如指标异常）
```

**门禁阈值配置**：

| 阶段 | 指标 | 阈值 | 处理 |
|------|------|------|------|
| CI | Golden Task通过率 | >95% | 低于则阻断 |
| CI | 核心指标均值 | >基线-2% | 低于则阻断 |
| Staging | 全量通过率 | >90% | 低于则阻断 |
| Staging | 回归检测p值 | <0.05 | 显著退化则阻断 |
| Production | 实时错误率 | <5% | 超过则自动回滚 |

**输出模板**：
```
S3 CI/CD方案：
- CI检查项：____
- Staging检查项：____
- Production策略：____
- 门禁阈值：____
- 回滚机制：____
```

### S4：持续优化机制

**目标**：建立PRT的持续优化闭环

**优化维度**：

| 维度 | 优化活动 | 频率 |
|------|---------|------|
| 测试集 | 新增用例、淘汰过时用例 | 月度 |
| 阈值 | 基于历史数据调整阈值 | 季度 |
| 方法 | 评估测试方法有效性 | 季度 |
| 工具 | 升级测试工具和框架 | 半年 |

**度量指标**：

| 指标 | 计算方式 | 目标 |
|------|---------|------|
| 误报率 | 误报数/总告警数 | <10% |
| 漏报率 | 漏报数/总问题数 | <5% |
| 测试耗时 | 提交到结果的时间 | <30分钟 |
| 质量趋势 | 月度质量指标变化 | 持续提升 |

**输出模板**：
```
S4优化方案：
- 优化维度：____
- 度量指标：____
- 优化频率：____
- 负责人：____
- 目标：____
```

---

## 输出格式

```
# PRT质量门禁方案

## 一、三层测试架构
- Golden Task层：____个用例
- 统计分布层：____个指标
- 回归检测层：____种方法

## 二、五条版本线追踪
- 各版本线回归风险：____
- 触发矩阵：____

## 三、CI/CD集成
- CI流程：____
- Staging流程：____
- Production策略：____
- 门禁阈值：____

## 四、持续优化
- 优化维度：____
- 度量指标：____

## 五、实施计划
- 第1周：____
- 第2-4周：____
- 持续运营：____

## 六、工具与资源
- 测试工具：____
- 监控工具：____
- 人力资源：____
```

---

## 治理神经检查

### 边界与升级检查
- [ ] PRT问题是否涉及整体质量文化（需升级到组织层面）？
- [ ] 测试资源是否与发布频率匹配？
- [ ] 是否需要引入专业测试工具或平台？

---

## 质量自检

- [ ] 三层测试架构是否完整（Golden Task + 统计验证 + 回归检测）？
- [ ] 五条版本线是否都有追踪方案？
- [ ] CI/CD集成是否有明确的门禁阈值？
- [ ] 是否有自动回滚机制？
- [ ] 是否考虑了误报和漏报的平衡？
- [ ] 是否有持续优化的度量指标？

---

## 典型误区

| 误区 | 正确理解 |
|------|---------|
| "回归测试就是跑一遍旧用例" | Agent需要统计分布验证，不是确定性断言 |
| "通过率100%才安全" | 过高阈值导致频繁误报，需要合理容忍度 |
| "CI跑Golden Task就够了" | 需要三层配合，Golden Task只是第一层 |
| "回滚就是恢复旧版本" | Agent回滚需要考虑五条版本线的兼容性 |
| "PRT只在发布前做" | 需要持续监控，Production也需要实时检测 |

---

## 框架衔接

### 向上衔接
- **F20 TripleE工程方法**：PRT是Triple-E中Experiment-Driven的实现
- **F25 评测矩阵**：评测矩阵为PRT提供测试用例和指标定义

### 向下衔接
- 无直接下游框架（PRT是最末端的质量保障）

### 横向关联
- **F22 执行链路诊断**：PRT检测到的问题通过链路诊断定位根因
- **F24 ADLC开发生命周期**：PRT是ADLC CI/CD集成的核心组件
- **F21 Skill资产治理**：Skill版本变更是PRT的重要触发条件