ポストモーテムテンプレ
事象の要約
影響範囲
- 対象ユーザー/機能/期間:
- Severity:
- セキュリティ/プライバシー影響(有/無/未判断):
真因
対応評価
- うまくいったこと:
- 遅れたこと/迷ったこと:
- 判断に必要だった情報:
再発防止(行動)
| アクション |
担当 |
期限 |
完了条件(検証) |
接続先(Issue/PR/Runbook/監視設定) |
| |
|
|
|
|
検知改善
手順改善
残リスク / フォローアップ
- 残リスク:
- 別 Issue 化した項目:
- アクション一覧:
記入例(最小)
- 事象の要約: 決済 API の 5xx が増加し、一部決済が失敗
- 直接原因: 接続プール設定が負荷変動に耐えず、DB 接続待ちが増加
- 背後要因: ピーク時負荷を想定した検証が不足していた
| アクション | 担当 | 期限 | 完了条件(検証) | 接続先(Issue/PR/Runbook/監視設定) |
| — | — | — | — | — |
| 接続プール設定の見直し + 負荷試験の実施 | 決済チーム | YYYY-MM-DD | 負荷試験でエラー率/レイテンシが基準内であることを確認 | Issue #123 / PR #456 / 監視設定 |
- 検知改善: エラー率 SLI とアラート閾値を再設計し、Runbook に誘導
- Runbook(運用手順書)の更新点: 初動(証跡保全/共有頻度)とロールバック判断の観点を追記
- アクション一覧: Issue 等で管理し、完了条件まで追跡