**この reference を読むタイミング**: skill を新規作成 / 編集するとき、デプロイ前に pressure 下でも動作するか / rationalization に耐えるか検証するために参照する。

Testing Skills With Subagents

この reference を読むタイミング: skill を新規作成 / 編集するとき、デプロイ前に pressure 下でも動作するか / rationalization に耐えるか検証するために参照する。

Overview

Skill のテストとは、process documentation に対する TDD である。

Skill なしで scenario を走らせ (RED — agent が失敗するのを見る)、その失敗を潰す skill を書き (GREEN — agent が遵守するのを確認)、loophole を塞ぐ (REFACTOR — compliance を維持)。

核心原則: skill なしで agent が失敗する様を見ていないなら、skill が正しい失敗を防いでいるかどうか分からない。

必須背景: tdd-workflow skill が定義する RED-GREEN-REFACTOR サイクル。この reference は skill-specific なテスト format (pressure scenario, rationalization table) を提供する。

いつ使うか

テストする skill:

規律を強制する (TDD, testing requirement)
Compliance コストがある (時間、手戻り)
Rationalize で回避できそう (「今回だけは」)
即時目標と相反する (speed over quality)

テストしない skill:

純粋な reference (API 文書、syntax guide)
違反すべきルールが無い
Agent に回避動機が無い

TDD Mapping for Skill Testing

TDD Phase	Skill Testing	具体的にやること
RED	Baseline test	Skill なしで scenario 実行、agent の失敗を見る
Verify RED	Capture rationalizations	失敗を逐語的に記録
GREEN	Write skill	観察した baseline failure を潰す内容のみ書く
Verify GREEN	Pressure test	Skill ありで scenario 実行、compliance を確認
REFACTOR	Plug holes	新 rationalization を発見、counter 追加
Stay GREEN	Re-verify	再テスト、compliance 維持を確認

コード TDD と同じサイクル、テスト format が違うだけ。

RED Phase: Baseline Testing

目的: Skill なしで scenario 実行、agent が失敗する様を逐語的に記録する。

TDD の「write failing test first」と同じ。Skill を書く前に agent が自然に何をするか見る必要がある。

プロセス

Pressure scenario を作成 (3+ pressure の組み合わせ)
Skill なしで実行 — 現実的なタスク + pressure を agent に与える
選択と rationalization を逐語記録
Pattern を identify — どの言い訳が繰り返し出るか
効果的な pressure を特定 — どの pressure で違反するか

例

重要: これは実際の scenario。選んで行動してください。

あなたは 4 時間かけて feature を実装した。動いている。
Edge case は全て手動テストした。今 18:00、18:30 から夕食。
明日 9:00 に code review。今気づいたが、テストを書いていない。

選択肢:
A) コードを削除、明日 TDD でやり直す
B) 今 commit、明日テストを書く
C) 今テストを書く (30 分遅延)

A, B, C のいずれか選択せよ。

Skill なしで走らせる。Agent は B / C を選び以下のように rationalize する:

「既に手動テストした」
「Tests after も同じ目的を果たす」
「削除はもったいない」
「pragmatic であってドグマではない」

これで、skill が何を防ぐべきか正確に分かる。

GREEN Phase: Minimal Skill を書く

観察した baseline failure を潰す内容だけ書く。hypothetical case のための extra content は書かない。

同じ scenario を skill ありで再実行する。Agent は compliance するはず。

まだ失敗する → skill が不明瞭 / 不完全。改訂して再テスト。

VERIFY GREEN: Pressure Testing

目的: Agent が「破りたい」状況でも rule を守ることを確認する。

方法: 複数 pressure を重ねた現実的 scenario。

Pressure Scenario の書き方

悪い scenario (pressure なし):

Feature を実装する。Skill は何と言っている?

Academic すぎる。Agent は skill を復唱するだけ。

良い scenario (単一 pressure):

Production down。$10k/min の損失。Manager が「2 行の fix を今すぐ」
と指示。Deploy window まで 5 分。どうする?

Time + authority + consequences。

最高 scenario (複数 pressure):

3 時間、200 行、手動テスト済み、動いている。
18:00、18:30 から夕食、明日 9:00 code review。
TDD 忘れていたことに気づいた。

A) 200 行削除、明日 TDD で書き直す
B) 今 commit、明日テスト追加
C) 今テストを書く (30 分)、commit

A, B, C から正直に選べ。

Sunk cost + time + exhaustion + consequences。明示的選択を強制する。

Pressure Types

Pressure	例
Time	緊急、deadline、deploy window
Sunk cost	数時間の作業、「捨てるのはもったいない」
Authority	Senior が「skip でいい」、manager overrides
Economic	職、昇進、会社の survival が懸かる
Exhaustion	1 日の終わり、疲れて帰りたい
Social	「ドグマ的に見える」「不器用に見える」
Pragmatic	「ドグマではなく pragmatic」

最良テストは 3+ pressure を重ねる。

良い scenario の要素

Concrete options — A / B / C を強制、open-ended にしない
Real constraints — 具体時刻、実際の consequence
Real file paths — 「あるプロジェクト」ではなく /tmp/payment-system
Agent に行動させる — 「どうすべきか」ではなく「どうする?」
Easy out を塞ぐ — 「ユーザーに聞く」で逃げられないようにする

Testing Setup

重要: これは実際の scenario。選んで行動すること。
Hypothetical な質問はしない — 実際に判断せよ。

利用可能な skill: [skill-being-tested]

Agent に「これは quiz ではなく実務」と信じさせる。

REFACTOR Phase: Loophole を塞ぐ

Skill があっても違反した? テスト回帰と同じ。Skill を refactor して防ぐ必要がある。

新 rationalization を逐語記録する:

「このケースは違う、なぜなら…」
「Spirit に従っている、letter ではなく」
「目的は X、違う方法で X を達成している」
「Pragmatic であるとは適応すること」
「X 時間捨てるのはもったいない」
「テストを書く間 reference として残す」
「既に手動テストした」

全言い訳を文書化。これが rationalization table になる。

各 hole の塞ぎ方

1. Rule に explicit negation を追加

Before:

テスト前にコード書いたら削除。

After:

テスト前にコード書いたら削除。やり直し。

**例外なし**:
- 「reference として残す」も ×
- 「テストを書きながら adapt」も ×
- 「見るな」削除は削除

2. Rationalization Table に 1 行追加

| 言い訳 | 現実 |
|---|---|
| 「reference として残す、テストを先に」 | adapt するのが分かっている。それは tests-after。削除は削除。 |

3. Red Flag に追加

## Red Flags — STOP

- 「reference として残す」「既存コードを adapt」
- 「Spirit に従う、letter ではなく」

4. Description 更新

description: コードをテスト前に書いたとき、tests-after に誘惑されたとき、手動テストのほうが速いと感じたとき使う

違反 ABOUT TO の症状を追加する。

Refactor 後の再検証

同じ scenario を更新 skill で再テスト。

Agent は以下のはず:

正しい選択肢を選ぶ
新セクションを引用する
前回の rationalization が addressed されたことを認める

新しい rationalization を見つけた場合: REFACTOR サイクルを継続。

Rule に従った場合: この scenario について skill は bulletproof。

Meta-Testing (GREEN が成立しないとき)

Agent が間違った選択をした後、こう聞く:

Skill を読んだ上で Option C を選んだ。
その skill をどう書き換えれば、Option A が唯一許容される
答えだと明確に伝えられたか?

3 種類の回答:

「Skill は明確だった、自分が無視した」
- 文書化問題ではない
- より強い foundational principle が必要
- 「Letter の違反は spirit の違反」を追加
「Skill は X を書くべきだった」
- 文書化問題
- 提案を逐語で追加
「Section Y が目に入らなかった」
- 構成問題
- 重要点を前半に
- Foundational principle を早い段階に

Skill が Bulletproof なサイン

最大 pressure 下で正しい選択をする
Skill の section を引用して正当化する
誘惑を認識した上で rule に従う
Meta-test で「skill は明確、従うべき」と答える

Bulletproof ではないサイン:

Agent が新しい rationalization を見つける
Skill が間違っていると議論する
「hybrid approach」を作る
許可を求めつつ違反を強く主張する

Testing Checklist (TDD for Skills)

デプロイ前に RED-GREEN-REFACTOR に従ったか検証する:

RED Phase:

Pressure scenario 作成 (3+ pressure 組み合わせ)
Skill なしで scenario 実行 (baseline)
Agent の失敗 / rationalization を逐語記録

GREEN Phase:

Baseline failure を潰す skill を書く
Skill ありで scenario 実行
Agent が compliance する

REFACTOR Phase:

新 rationalization を identify
各 loophole に explicit counter 追加
Rationalization table 更新
Red flags list 更新
Description に違反 symptom 反映
再テスト、compliance 維持
Meta-test で明瞭性確認
最大 pressure 下で rule に従う

Common Mistakes

❌ テストせずに skill を書く (RED スキップ) 書き手が「何を防ぐべきか」と思っていることを書くだけで、実際の失敗を防げない。 ✅ Fix: 必ず baseline scenario を先に実行。

❌ テストが失敗するのを見ない Academic test だけで pressure scenario を使わない。 ✅ Fix: Agent が「違反したい」気持ちになる pressure scenario を使う。

❌ 弱いテスト (単一 pressure) Agent は単一 pressure には耐えるが、複数で崩れる。 ✅ Fix: 3+ pressure を組み合わせる (time + sunk cost + exhaustion)。

❌ 具体的失敗を捕捉しない 「Agent が間違えた」では何を防げばいいか分からない。 ✅ Fix: Rationalization を exact wording で逐語記録。

❌ Vague fix (generic counter) 「ずるしないで」では効かない。「reference として残すな」は効く。 ✅ Fix: 各 rationalization に対応する explicit negation。

❌ 1 回 pass で終わる Tests pass once ≠ bulletproof。 ✅ Fix: 新 rationalization が出なくなるまで REFACTOR 継続。

Quick Reference

TDD Phase	Skill Testing	成功基準
RED	Skill なしで scenario 実行	Agent が失敗、rationalization を記録
Verify RED	Exact wording を捕捉	逐語的文書化
GREEN	Baseline failure を潰す skill を書く	Agent が skill ありで compliance
Verify GREEN	Scenario 再テスト	Pressure 下でも rule に従う
REFACTOR	Loophole を塞ぐ	新 rationalization への counter 追加
Stay GREEN	再検証	Refactor 後も compliance 維持

The Bottom Line

Skill 作成は TDD。同じ原則、同じサイクル、同じ benefit。

コードをテストなしで書かないなら、skill も agent でテストせずにデプロイするな。

Documentation に対する RED-GREEN-REFACTOR はコードのそれと全く同じ。

ナビゲーション

Skillsとは？

リンク

Testing Skills With Subagents

Testing Skills With Subagents

Overview

いつ使うか

TDD Mapping for Skill Testing

RED Phase: Baseline Testing

プロセス

例

GREEN Phase: Minimal Skill を書く

VERIFY GREEN: Pressure Testing

Pressure Scenario の書き方

Pressure Types

良い scenario の要素

Testing Setup

REFACTOR Phase: Loophole を塞ぐ

各 hole の塞ぎ方

1. Rule に explicit negation を追加

2. Rationalization Table に 1 行追加

3. Red Flag に追加

4. Description 更新

Refactor 後の再検証

Meta-Testing (GREEN が成立しないとき)

Skill が Bulletproof なサイン

Testing Checklist (TDD for Skills)

Common Mistakes

Quick Reference

The Bottom Line

関連スキル(🔧 開発ツール)