ポストモーテムテンプレ
事象の要約
- (記入)
真因
- 直接原因:
- 背後要因:
再発防止(行動)
- 対策(期限/担当/検証):
検知改善
- (記入)
手順改善
- Runbook(運用手順書)の更新点
フォローアップ
- アクション一覧
記入例(最小)
- 事象の要約: 決済 API の 5xx が増加し、一部決済が失敗
- 直接原因: 接続プール設定が負荷変動に耐えず、DB 接続待ちが増加
- 背後要因: ピーク時負荷を想定した検証が不足していた
- 対策(期限/担当/検証):
- 対策: 接続プール設定の見直し + 負荷試験の実施
- 期限: YYYY-MM-DD
- 担当: 決済チーム
- 検証: 負荷試験でエラー率/レイテンシが基準内であることを確認
- 検知改善: エラー率 SLI とアラート閾値を再設計し、Runbook に誘導
- Runbook(運用手順書)の更新点: 初動(証跡保全/共有頻度)とロールバック判断の観点を追記
- アクション一覧: Issue 等で管理し、完了条件まで追跡