ポストモーテムテンプレ

事象の要約

  • (記入)

真因

  • 直接原因:
  • 背後要因:

再発防止(行動)

  • 対策(期限/担当/検証):

検知改善

  • (記入)

手順改善

  • Runbook(運用手順書)の更新点

フォローアップ

  • アクション一覧

記入例(最小)

  • 事象の要約: 決済 API の 5xx が増加し、一部決済が失敗
  • 直接原因: 接続プール設定が負荷変動に耐えず、DB 接続待ちが増加
  • 背後要因: ピーク時負荷を想定した検証が不足していた
  • 対策(期限/担当/検証):
    • 対策: 接続プール設定の見直し + 負荷試験の実施
    • 期限: YYYY-MM-DD
    • 担当: 決済チーム
    • 検証: 負荷試験でエラー率/レイテンシが基準内であることを確認
  • 検知改善: エラー率 SLI とアラート閾値を再設計し、Runbook に誘導
  • Runbook(運用手順書)の更新点: 初動(証跡保全/共有頻度)とロールバック判断の観点を追記
  • アクション一覧: Issue 等で管理し、完了条件まで追跡