第1章:トラブルシューティングの基本フレーム(症状/影響/再現/仮説)

この章で学ぶこと

  • 症状(Symptom)と影響(Impact)を分けて整理する
  • 再現条件を把握し、仮説を立てて検証する
  • 調査ログを残しながら進める

成果物(または判断基準)

本文

初動では、修正よりも状況の固定(影響拡大の抑止、観測可能性の確保)を優先する。症状と影響を分けると、優先順位(復旧優先か原因特定優先か)を判断しやすい。

注: 再起動などの暫定対応は、証跡(ログ/メトリクス)を上書きする場合がある。実施前に最小限の証跡を確保する。

基本フレーム

  • 症状: 何が起きているか(観測事実)
  • 影響: 誰に/どれくらい影響しているか
  • 再現: 条件が揃うと再現するか
  • 仮説: 何が原因候補か
  • 検証: 何を観測すれば否定/支持できるか

調査ログは“試行の羅列”ではなく、“仮説と結果”を追跡できる形で残す。

具体例(場当たり→再現性)

悪い例(場当たり)

とりあえずサーバー再起動
ログを見ない
誰に影響しているかを確認しない

良い例(再現性)

症状: API の 5xx が増加(request-id で確認)
影響: 決済が失敗(最大 8%)
仮説: DB 接続枯渇
検証: 接続数/待ち時間メトリクスとエラーログを確認
記録: タイムラインに判断と結果を残す

チェックリスト

  • 症状と影響を分けて書いた
  • 仮説と検証方法がある
  • タイムラインに判断/実施/結果が残っている

まとめ

  • 症状(観測事実)と影響(顧客・業務影響)を分離して整理する
  • 再現条件、仮説、検証結果をセットで記録し、意思決定の根拠を残す

次章への接続