ポストモーテムテンプレ

事象の要約

  • (記入)

影響範囲

  • 対象ユーザー/機能/期間:
  • Severity:
  • セキュリティ/プライバシー影響(有/無/未判断):

真因

  • 直接原因:
  • 背後要因:

対応評価

  • うまくいったこと:
  • 遅れたこと/迷ったこと:
  • 判断に必要だった情報:

再発防止(行動)

アクション 担当 期限 完了条件(検証) 接続先(Issue/PR/Runbook/監視設定)
         

検知改善

  • (記入)

手順改善

  • Runbook(運用手順書)の更新点

残リスク / フォローアップ

  • 残リスク:
  • 別 Issue 化した項目:
  • アクション一覧:

記入例(最小)

  • 事象の要約: 決済 API の 5xx が増加し、一部決済が失敗
  • 直接原因: 接続プール設定が負荷変動に耐えず、DB 接続待ちが増加
  • 背後要因: ピーク時負荷を想定した検証が不足していた | アクション | 担当 | 期限 | 完了条件(検証) | 接続先(Issue/PR/Runbook/監視設定) | | — | — | — | — | — | | 接続プール設定の見直し + 負荷試験の実施 | 決済チーム | YYYY-MM-DD | 負荷試験でエラー率/レイテンシが基準内であることを確認 | Issue #123 / PR #456 / 監視設定 |
  • 検知改善: エラー率 SLI とアラート閾値を再設計し、Runbook に誘導
  • Runbook(運用手順書)の更新点: 初動(証跡保全/共有頻度)とロールバック判断の観点を追記
  • アクション一覧: Issue 等で管理し、完了条件まで追跡