第9章:障害報告・ポストモーテム(タイムライン/真因/再発防止)

この章で学ぶこと

  • 障害報告は「説明責任」のために整理する
  • ポストモーテムは「再発防止を行動に落とす」ために書く
  • テンプレと相互参照し、運用に反映する

この章の成果物(または判断基準)

本文

本章は、テンプレ→記入例→落とし穴→チェックリストの順で整理する。

テンプレ

記入例(要点)

  • タイムライン: いつ何を判断し実施したか
  • 影響: 範囲と期間
  • 真因: 直接原因/背後要因
  • 再発防止: 期限/担当/検証
  • 手順改善: Runbook/手順書の更新

よくある落とし穴

  • 真因が整理されず、対策が「注意する」で終わる
  • 再発防止が行動になっていない
  • 影響範囲が曖昧
  • 責任追及の文脈になる

具体例(悪い例→良い例)

悪い例

原因: 調査中(真因の説明なし)
対策: 注意する
影響: 影響あり(範囲/期間不明)

良い例

影響: 決済 API、10:12〜10:35、最大8%失敗
タイムライン: 検知→暫定→復旧→確認
真因: 接続プール設定が負荷に耐えない
再発防止: 設定見直し+負荷試験(期限/担当/検証)
手順改善: Runbook に初動/ロールバックを追記

チェックリスト

  • 影響範囲と期間が明確
  • タイムラインがある
  • 真因が仕組みとして説明されている
  • 再発防止が行動(期限/担当/検証)になっている
  • 手順/検知に反映されている

まとめ

  • 障害報告は事象・影響・タイムラインを明確化し、説明責任を担保する
  • ポストモーテムは真因と再発防止を行動(期限/担当/検証)に落とし、運用ドキュメントへ反映する

次章への接続