name: systematic-debugging description: Use when encountering any bug, test failure, or unexpected behavior, before proposing fixes - four-phase framework (root cause investigation, pattern analysis, hypothesis testing, implementation). NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST. metadata: short-description: 系统化调试与根因分析 keywords: - systematic-debugging - 调试 - Bug 修复 - 根因分析 - 问题诊断 - 堆栈追踪 - 生产环境调试 - root cause - debugging category: 调试 author: Bensz Conan platform: Claude Code | OpenAI Codex | ChatGPT iron-law: | NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST

Systematic Debugging - 系统化调试

与 bensz-collect-bugs 的协作约定

因本 skill 设计缺陷导致的 bug，先用 bensz-collect-bugs 规范记录到 ~/.bensz-skills/bugs/，不要直接修改用户本地已安装的 skill 源码；若有 workaround，先记 bug，再继续完成任务。
只有用户明确要求“report bensz skills bugs”等公开上报时，才用本地 gh 上传新增 bug 到 huangwb8/bensz-bugs；不要 pull / clone 整个仓库。

铁律

NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST

违反规则的信件就是违反规则的精神。

无例外：

不跳过根因调查直接修复
不基于猜测进行修复
不尝试多个更改同时测试
不在不完全理解的情况下修复

常见合理化

借口	现实
"快速修复现在，稍后调查"	永不会有"稍后"。技术债积累
"尝试改变 X，看是否有效"	猜测不是调试。可能碰巧修复但未理解
"添加多个更改，运行测试"	无法确定哪个更改有效。浪费调试时间
"可能大概差不多是 X"	模糊理解导致错误修复
"不完全理解但可能有效"	理解不完全=修复不完整

红色标志 - 停止并重新开始

"快速修复现在，稍后调查"
"尝试改变 X，看是否有效"
"添加多个更改，运行测试"
"可能大概差不多是 X，让我修复"
"不完全理解但可能有效"
基于猜测而非证据的修复

所有这些意味着：停止修复。回到根因调查阶段。

四阶段框架

阶段 1：根因调查

任何修复前：

仔细阅读错误消息
- 不要跳过错误或警告
- 它们通常包含确切解决方案
一致复现
- 你能可靠触发吗？
检查最近变更
- 什么变更可能导致此问题？

多组件系统收集证据

# 对于每个组件边界：
- 记录进入组件的数据
- 记录退出组件的数据
- 验证环境/配置传播
- 检查每层状态
运行一次以收集显示何处中断的证据
然后分析证据以识别失败组件
然后调查该特定组件

追踪数据流
- 向后追踪到坏值起源

阶段 2：模式分析

找到工作示例
与参考对比
识别差异
理解依赖

阶段 3：假设与测试

形成单一假设："我认为 X 是根本原因，因为 Y"
最小化测试：进行最小可能更改
验证后再继续
3+ 次修复失败时：质疑架构

阶段 4：实现

创建失败测试用例
实施单一修复
验证修复
如果 3+ 次修复失败：质疑架构

核心理念

系统化调试 不是碰运气，而是方法化地解决问题的科学流程。

┌─────────────────────────────────────────────────────────┐
│  收集证据 → 形成假设 → 系统验证 → 定位根因 → 实施修复  │
└─────────────────────────────────────────────────────────┘

核心原则：

基于证据，而非猜测
治疗根本原因，而非症状
一次验证一个假设
记录整个过程

何时使用本技能

在以下场景时激活：

出现错误、异常、Bug
需要分析堆栈追踪（Stack Trace）
提到"调试"、"排查问题"、"定位根因"
生产环境问题分析
跨文件或跨模块的问题追踪
间歇性 Bug（时有时无）

调试工作流程

步骤 1：收集证据 📋

信息收集清单：

证据类型	收集方法	重要性
完整堆栈追踪	复制完整错误信息	⭐⭐⭐⭐⭐
相关日志	查看应用日志	⭐⭐⭐⭐⭐
复现步骤	记录如何触发问题	⭐⭐⭐⭐
环境信息	OS、版本、依赖	⭐⭐⭐
代码变更	最近的 Git 提交	⭐⭐⭐⭐
用户输入	触发问题的数据	⭐⭐⭐

堆栈追踪分析示例：

# 示例错误
Traceback (most recent call last):
  File "app.py", line 45, in process_order
    result = payment_service.charge(amount)
  File "payment.py", line 78, in charge
    return api_client.post("/charge", data)
  File "api.py", line 23, in post
    response = self.session.request(method, url, **kwargs)
ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed

分析要点：

从下往上读：最下面是根本原因
追踪调用链：app.py → payment.py → api.py
识别错误类型：SSL 证书验证失败
定位失败点：api.py 第 23 行

步骤 2：形成假设 💡

假设生成规则：

基于证据：不要凭空猜测
优先考虑最近变更
从简单到复杂排序
一次只关注一个假设

假设模板：

假设：[问题描述] 的原因是 [根本原因]
触发条件：[什么情况下会出现]
验证方法：[如何证明或否定]

假设示例：

假设：SSL 错误的原因是生产环境缺少证书文件
触发条件：部署到生产环境后首次调用 API
验证方法：检查 /etc/ssl/certs/ 目录是否存在证书

常见根因分类：

类别	典型原因	检查方法
配置问题	环境变量、配置文件错误	检查 .env、config
依赖问题	版本冲突、缺失依赖	检查 requirements.txt
数据问题	空值、格式错误、边界值	检查输入数据
并发问题	竞态条件、死锁	检查锁、线程安全
资源问题	内存泄漏、连接池耗尽	检查资源使用
逻辑错误	边界条件、空值处理	代码审查

步骤 3：系统验证 🔍

验证原则：

一次验证一个假设（控制变量）
设计最小化验证实验
记录验证过程和结果
用排除法缩小范围

验证方法：

# 方法 1：添加日志
def process_order(order_id):
    logger.info(f"Processing order: {order_id}")
    order = get_order(order_id)
    logger.debug(f"Order data: {order}")
    # ...

# 方法 2：断点调试
import pdb; pdb.set_trace()

# 方法 3：简化输入
def test():
    # 用最小输入验证
    process_order({"id": 1, "amount": 0})

验证记录模板：

## 假设验证记录

### 假设 1：证书文件缺失
- **验证方法**：检查文件是否存在
- **验证结果**：❌ 文件存在
- **结论**：假设不成立，排除

### 假设 2：证书过期
- **验证方法**：检查证书有效期
- **验证结果**：✅ 证书已于 3 天前过期
- **结论**：假设成立，定位根因

步骤 4：定位根因 🎯

区分症状与根因：

使用五问法（5 Whys）深入挖掘：

问题：订单处理失败

Why 1: 为什么失败？
→ API 调用返回 500 错误

Why 2: 为什么 API 返回 500？
→ 数据库查询超时

Why 3: 为什么查询超时？
→ 缺少索引导致全表扫描

Why 4: 为什么缺少索引？
→ 新增字段时未同步添加索引

Why 5: 为什么未添加索引？
→ 没有 Code Review 流程

根因：缺少 Code Review 机制（而非"API 返回 500"）

根因特征：

✅ 可操作：可以采取措施
✅ 可预防：可以防止再次发生
✅ 系统级：不是个人失误

步骤 5：实施修复 🔧

修复原则：

最小化修复范围
添加回归测试
修复后验证
更新文档

修复清单：

## 修复计划

### 代码修复
- [ ] 修改代码：[具体位置]
- [ ] 添加测试：[测试用例]
- [ ] 运行测试确认通过

### 预防措施
- [ ] 添加检查机制
- [ ] 更新文档
- [ ] 团队分享经验

### 验证
- [ ] 本地验证
- [ ] 测试环境验证
- [ ] 生产环境验证

调试技巧库

技巧 1：二分法调试

当问题可能出现在多个位置时：

# 在中间点添加日志
def complex_function(data):
    logger.info("Step 1: Start")
    result1 = step1(data)
    logger.info(f"Step 1 result: {result1}")

    logger.info("Step 2: Start")
    result2 = step2(result1)
    logger.info(f"Step 2 result: {result2}")

    logger.info("Step 3: Start")
    result3 = step3(result2)
    logger.info(f"Step 3 result: {result3}")

    return result3

技巧 2：最小化复现

# 从复杂场景中提取最小复现用例
def test_minimal_reproduction():
    # 不需要完整的订单数据
    order = {"amount": 100}  # 最小输入
    result = process_payment(order)
    assert result.success

技巧 3：对比法调试

# 对比工作版本和失败版本
def test_working_vs_broken():
    # 工作版本
    result_working = old_api_call(data)

    # 失败版本
    try:
        result_broken = new_api_call(data)
    except Exception as e:
        print(f"Broken: {e}")

    # 对比差异
    compare_results(result_working, result_broken)

技巧 4：环境隔离

# 使用 Docker 隔离环境
docker run -it python:3.11 bash

# 或使用虚拟环境
python -m venv debug_env
source debug_env/bin/activate

常见问题模式

模式 1：时序问题

症状：间歇性失败，时好时坏

根因：竞态条件、异步操作未正确等待

调试方法：

# 添加重试和延迟
from tenacity import retry, stop_after_attempt, wait_fixed

@retry(stop=stop_after_attempt(3), wait=wait_fixed(1))
def flaky_operation():
    # 可能失败的操作
    pass

模式 2：内存问题

症状：性能逐渐下降，最终崩溃

根因：内存泄漏

调试方法：

import tracemalloc

tracemalloc.start()
# ... 运行代码 ...
snapshot = tracemalloc.take_snapshot()
top_stats = snapshot.statistics('lineno')
for stat in top_stats[:10]:
    print(stat)

模式 3：状态污染

症状：测试单独通过，批量运行失败

根因：测试间共享状态

调试方法：

@pytest.fixture(autouse=True)
def reset_state():
    # 每个测试前重置状态
    reset_database()
    reset_cache()
    yield
    cleanup()

验证清单

修复完成后，检查：

根本原因已识别（非症状）
修复方案最小化
添加回归测试
本地验证通过
文档已更新（如需要）
团队已分享经验
预防措施已实施

ナビゲーション

Skillsとは？

リンク

systematic-debugging

Systematic Debugging - 系统化调试

与 bensz-collect-bugs 的协作约定

铁律

常见合理化

红色标志 - 停止并重新开始

四阶段框架

阶段 1：根因调查

阶段 2：模式分析

阶段 3：假设与测试

阶段 4：实现

核心理念

何时使用本技能

调试工作流程

步骤 1：收集证据 📋

步骤 2：形成假设 💡

步骤 3：系统验证 🔍

步骤 4：定位根因 🎯

步骤 5：实施修复 🔧

调试技巧库

技巧 1：二分法调试

技巧 2：最小化复现

技巧 3：对比法调试

技巧 4：环境隔离

常见问题模式

模式 1：时序问题

模式 2：内存问题

模式 3：状态污染

验证清单

相关参考

関連スキル(🔧 開発ツール)