生产缺陷神探

任务目标

本 Skill 用于:生产环境缺陷的深度分析与处理
能力包含:
1. 缺陷原因分析(RCA):使用5Why法和故障树分析定位根本原因
2. 相似缺陷归纳:对多个缺陷进行聚类和归类分析
3. 责任人分析:界定缺陷引入阶段和漏测原因
4. 查重与知识库比对:识别新问题、相似问题或复发问题
5. 缺陷汇总与趋势分析:对多条缺陷数据进行清洗、统计、风险研判和改进建议
触发条件:
- 用户提交报错日志或异常现象需要分析
- 用户询问类似历史问题或要求查重
- 用户需要对多个缺陷进行归类总结
- 用户要求提供修复建议或止血方案
- 用户提供多条缺陷数据（列表、CSV文本、JSON）需要汇总分析
- 用户要求生成缺陷周报或趋势分析

操作步骤

1. 缺陷原因分析(RCA)

适用场景:用户提供报错日志、错误现象、代码片段需要根因分析

执行流程:

信息收集:从用户输入中提取关键信息
- 错误类型(Exception/Error)
- 错误堆栈(StackTrace)
- 触发条件(请求参数、并发量、时间点)
- 影响范围(用户数、模块、业务流程)
5Why分析:逐层追问"为什么"，直到找到根本原因
- 第1层:直接错误现象
- 第2层:直接技术原因
- 第3层:设计或实现问题
- 第4层:流程或机制缺陷
- 第5层:根本原因(架构/规范/培训等)

输出结构:

## 缺陷分析报告

### 问题摘要
- **错误类型**: [异常名称]
- **影响范围**: [影响模块/用户数]
- **严重程度**: [P0/P1/P2/P3]

### 直接原因
[具体技术原因描述]

### 根本原因(5Why)
1. 为什么出现此错误? -> [直接原因]
2. 为什么会出现[直接原因]? -> [技术原因]
3. 为什么[技术原因]未被预防? -> [设计问题]
4. 为什么[设计问题]存在? -> [流程缺陷]
5. 为什么[流程缺陷]未被解决? -> [根本原因]

### 临时止血方案
- [立即可执行的缓解措施]
- [回滚或降级建议]
- [监控告警指标]

### 永久修复建议
- [代码层面修复点]
- [架构层面优化]
- [流程改进措施]
- [测试用例补充]

2. 相似缺陷归纳

适用场景:用户提供多个缺陷列表需要归类总结

执行流程:

特征提取:对每个缺陷提取关键词
- 模块/服务名称
- 错误类型(NullPointerException/Timeout/OOM等)
- 触发场景(高并发/特定版本/特定业务流程)
- 引入阶段(需求/开发/运维)
聚类分析:按以下维度归类
- 按模块聚类:同一服务/模块的缺陷
- 按错误类型聚类:相同异常类型的缺陷
- 按根因聚类:相同设计或实现缺陷导致的多个问题
- 按时间聚类:同一版本发布的缺陷

输出结构:

## 缺陷归类分析报告

### 整体统计
- **缺陷总数**: N个
- **P0级**: M个, **P1级**: X个, **P2级**: Y个

### 按模块归类
- **模块A**: N1个缺陷
  - 主要问题: [共性描述]
  - 典型缺陷: [缺陷ID列表]
- **模块B**: N2个缺陷
  - 主要问题: [共性描述]
  - 典型缺陷: [缺陷ID列表]

### 按错误类型归类
- **NullPointerException**: N1个
  - 共性特征: [描述]
  - 主要责任方: [团队]
- **Timeout**: N2个
  - 共性特征: [描述]
  - 主要责任方: [团队]

### 根因归类
- **架构设计问题**: N1个
  - 共同特征: [描述]
  - 改进建议: [建议]
- **代码质量问题**: N2个
  - 共同特征: [描述]
  - 改进建议: [建议]

### 主要责任方分析
| 责任方 | 缺陷数 | 占比 | 主要问题类型 |
|--------|--------|------|-------------|
| 团队A | N1 | XX% | [类型列表] |
| 团队B | N2 | XX% | [类型列表] |

3. 责任人分析

适用场景:用户需要界定缺陷责任和改进方向

执行流程:

引入阶段判定:
- 需求阶段:需求不明确、逻辑漏洞、边界条件未考虑
- 开发阶段:编码错误、逻辑缺陷、异常处理缺失
- 测试阶段:测试用例覆盖不足、场景遗漏、数据准备不充分
- 运维阶段:配置错误、环境差异、监控缺失
漏测原因分析:
- 用例覆盖:该场景是否在测试用例中
- 场景遗漏:是否考虑了边界条件、异常流程、高并发等
- 数据准备:测试数据是否真实覆盖生产场景
- 环境差异:测试环境与生产环境的配置差异

输出结构:

## 责任界定报告

### 缺陷引入阶段
- **阶段**: [需求/开发/测试/运维]
- **判定依据**:
  - [具体事实1]
  - [具体事实2]

### 责任方
- **主责方**: [团队/个人]
- **辅助责任**: [其他相关方]
- **客观分析**: [描述各方贡献和问题]

### 漏测原因分析
- **用例覆盖**: [是/否] -> [详细说明]
- **场景遗漏**: [是/否] -> [遗漏场景描述]
- **数据准备**: [是/否] -> [数据差异说明]
- **环境差异**: [是/否] -> [差异点列举]

### 改进建议
**针对需求**:
- [改进措施]

**针对开发**:
- [改进措施]

**针对测试**:
- [改进措施]

**针对运维**:
- [改进措施]

4. 查重与知识库比对

适用场景:用户询问"是否有类似问题"或"查重"

执行流程:

特征提取:从新问题中提取搜索关键词
- 错误类型:如"NullPointerException"
- 模块路径:如"order-service"
- 代码片段:关键类名、方法名
- 错误信息:报错中的关键短语
知识库搜索:
- 检查是否有相似的缺陷记录
- 检查是否有相同的技术方案或架构设计
- 检查是否有已知的坑点或风险点
判定标准:
- 复发(Regression):与历史问题完全相同，已修复后再次出现
- 相似(Similar):错误类型相同或根因相似，但具体场景不同
- 新问题(New):首次出现，无历史记录

输出结构:

## 缺陷查重报告

### 问题特征
- **错误类型**: [类型]
- **涉及模块**: [模块]
- **关键信息**: [关键词]

### 查重结果
- **判定**: [新问题/相似/复发]
- **相似度**: [高/中/低]
- **匹配历史记录**: [缺陷ID列表，若有]

### 历史问题对比(若有)
| 维度 | 当前问题 | 历史问题[ID] |
|------|----------|-------------|
| 错误类型 | [当前] | [历史] |
| 触发场景 | [当前] | [历史] |
| 根本原因 | [当前] | [历史] |
| 修复方案 | [当前] | [历史] |

### 借鉴建议
- [参考历史问题的修复方案]
- [需要注意的风险点]
- [需要补充的测试用例]

输出格式规范

所有输出必须使用结构化Markdown格式，包含以下要素：

清晰的章节标题(##或###)
必要的表格对比
代码块用于日志或代码片段
列表用于多要点说明
加粗强调关键信息

注意事项

数据安全

敏感信息脱敏:输出中自动隐藏密码、密钥、Token等敏感数据，用***或[已脱敏]标记
IP地址脱敏:对生产IP进行模糊处理
用户数据保护:不泄露真实用户信息

客观性原则

事实导向:所有责任分析基于事实，不带情绪化表达
证据支撑:每个结论必须有具体的事实或日志支撑
建设性批评:指出问题的同时提供改进建议

分析深度

5Why法则:不满足于表面原因，必须追到根本原因
横向对比:关注与历史问题的关联性
纵向挖掘:从单点问题延伸到系统性改进

使用示例

示例1:RCA分析

用户输入:

Error: Connection timed out
at com.example.order.service.OrderService.createOrder(OrderService.java:45)

智能体执行:

分析日志定位超时点
使用5Why法追溯根因
输出包含直接原因、根本原因、止血方案、修复建议的完整报告

示例2:缺陷归类

用户输入:

请对本周的10个缺陷进行归类分析
- 缺陷1: NullPointerException in UserModule
- 缺陷2: Timeout in PaymentModule
- ...

智能体执行:

提取每个缺陷的特征
按模块、错误类型、根因进行聚类
输出统计表格和改进建议

示例3:责任分析

用户输入:

这个订单支付失败的问题是谁的责任?

智能体执行:

分析问题引入阶段
判定主责方和漏测原因
提供客观的责任界定和改进建议

5. 缺陷汇总与趋势分析

适用场景:用户提供多条缺陷数据（列表、CSV文本、JSON）或发送指令如"生成本周缺陷周报"、"分析这些Bug的共性"时

执行流程:

数据清洗与提取:
- 遍历所有缺陷，提取关键字段：
  - 模块(Module): 业务模块或服务名称
  - 优先级(Priority): P0/P1/P2/P3
  - 根本原因(Root Cause): 如NPE、超时、配置错误、逻辑错误等
  - 引入阶段(Stage): 需求/开发/测试/运维
  - 修复状态(Status): 已修复/未修复/待验证
  - 关闭时间(Closed Time): 统计周期
- 忽略无效或格式错误的条目，记录数据质量报告
多维统计分析:

按模块 (Module):
- 统计各模块的缺陷数量和占比
- 识别"重灾区"（缺陷数量Top 3的模块）
- 计算最不稳定模块（缺陷数量最多且P0/P1占比最高的模块）
按优先级 (Priority):
- 统计P0、P1、P2、P3各级缺陷数量和占比
- 必须包含: P0/P1级严重缺陷的占比统计
按根因 (Root Cause):
- 统计各类根因的缺陷数量和占比
- 运用帕累托法则(80/20法则)，找出导致80%问题的Top 3根因
- 常见根因类型：NPE、超时、配置错误、逻辑错误、并发问题、性能问题、数据错误等
按引入阶段 (Stage):
- 统计各阶段的缺陷数量和占比
- 识别最主要的漏测原因（缺陷数量最多的阶段）
按时间趋势 (Trend):
- 按时间（天/周）统计缺陷数量变化
- 识别缺陷高峰期和异常波动
系统性风险研判:
- 判断是否存在共性模式：
  - 时间维度：所有超时都发生在晚高峰 → 架构容量问题
  - 版本维度：所有逻辑错都与新发布的v2.0版本有关 → 回归测试不足
  - 模块维度：同一模块反复出现相同类型问题 → 技术债务累积
  - 人员维度：特定团队缺陷率持续偏高 → 需要流程或培训优化
- 识别潜在风险点：
  - 质量下降趋势：P0/P1占比逐月上升
  - 回归风险：已修复问题反复出现
  - 新功能风险：新发布版本缺陷率显著高于历史平均水平
生成改进策略:
- 针对Top 1问题提出具体的流程改进建议：
  - 如果是代码质量问题：增加Code Review、静态代码扫描、单元测试覆盖率要求
  - 如果是测试不足：补充自动化用例、增加边界条件测试、引入性能测试
  - 如果是需求问题：加强需求评审、增加原型评审、提高验收标准
  - 如果是架构问题：进行技术债务清理、架构评审、容量规划
- 生成可落地的行动计划，包括：
  - 短期措施（1-2周可执行）
  - 中期措施（1-3个月）
  - 长期措施（3个月以上）

输出结构:

## 缺陷汇总与趋势分析报告

### 数据概览
- **统计周期**: [开始时间] ~ [结束时间]
- **缺陷总数**: N个
- **数据质量**: 有效N条，无效M条（说明原因）

### 关键指标
- **P0/P1级严重缺陷占比**: XX% (N个)
- **最不稳定模块**: [模块名] (缺陷数: N个, P0/P1占比: XX%)
- **最主要漏测原因**: [阶段名] (缺陷数: N个, 占比: XX%)

### 模块分布分析
| 模块 | 缺陷数 | 占比 | P0 | P1 | P2 | P3 | P0/P1占比 |
|------|--------|------|----|----|----|----|-----------|
| 模块A | N1 | XX% | X | Y | Z | W | XX% |
| 模块B | N2 | XX% | X | Y | Z | W | XX% |
| 模块C | N3 | XX% | X | Y | Z | W | XX% |

**重灾区**: [模块名] (Top 1: N个缺陷, 占比XX%)

### 根因分析（帕累托法则）
| 根因类型 | 缺陷数 | 占比 | 累计占比 |
|----------|--------|------|----------|
| NPE | N1 | XX% | XX% |
| 超时 | N2 | XX% | XX% |
| 配置错误 | N3 | XX% | XX% |
| 逻辑错误 | N4 | XX% | XX% |
| 其他 | N5 | XX% | 100% |

**Top 3根因**:
1. [根因1]: N个缺陷 (XX%) - [详细说明]
2. [根因2]: N个缺陷 (XX%) - [详细说明]
3. [根因3]: N个缺陷 (XX%) - [详细说明]

**帕累托分析**: Top 3根因导致了XX%的问题（目标: 80%以上可解释）

### 引入阶段分析
| 引入阶段 | 缺陷数 | 占比 |
|----------|--------|------|
| 需求 | N1 | XX% |
| 开发 | N2 | XX% |
| 测试 | N3 | XX% |
| 运维 | N4 | XX% |

**最主要漏测原因**: [阶段名] - [具体原因分析]

### 时间趋势分析
- **整体趋势**: [上升/下降/平稳]
- **异常波动**: [描述异常点和原因]
- **P0/P1趋势**: [趋势描述]

### 系统性风险研判

**共性模式识别**:
- ✅ **模式1**: [描述发现的共性模式]
  - 证据: [具体数据支持]
  - 风险等级: [高/中/低]
- ✅ **模式2**: [描述发现的共性模式]
  - 证据: [具体数据支持]
  - 风险等级: [高/中/低]

**潜在风险点**:
- ⚠️ [风险1]: [描述风险点和影响]
- ⚠️ [风险2]: [描述风险点和影响]

### 改进策略

**针对Top 1问题([根因名])的改进措施**:
- **流程改进**: [具体措施]
- **工具支持**: [具体工具或平台]
- **培训提升**: [培训内容或目标]

**短期行动计划（1-2周）**:
- [ ] [具体行动项] - [责任人]
- [ ] [具体行动项] - [责任人]
- [ ] [具体行动项] - [责任人]

**中期行动计划（1-3个月）**:
- [ ] [具体行动项] - [责任人]
- [ ] [具体行动项] - [责任人]

**长期行动计划（3个月以上）**:
- [ ] [具体行动项] - [责任人]
- [ ] [具体行动项] - [责任人]

### 关键建议
1. **最紧急**: [需要立即处理的问题]
2. **最重要**: [对质量影响最大的改进项]
3. **最可行**: [当前条件下最容易落地的措施]

defect-hunter

Safety Notice

Copy this and send it to your AI assistant to learn

生产缺陷神探

任务目标

操作步骤

1. 缺陷原因分析(RCA)

2. 相似缺陷归纳

3. 责任人分析

4. 查重与知识库比对

输出格式规范

注意事项

数据安全

客观性原则

分析深度

使用示例

示例1:RCA分析

示例2:缺陷归类

示例3:责任分析

5. 缺陷汇总与趋势分析

Source Transparency

Related Skills

Wangdongjie Cfo Skill

Hk Stock Morning Report

Nansen Mpp Payment

Etsy Autolist