障害報告テンプレ
事象・影響・タイムライン・暫定/恒久対策を整理し、説明責任を満たします。
コピペ用テンプレ
## 事象
- 何が起きたか
## 影響
- 影響範囲(利用者、機能、期間)
- 影響度(例: 重大/高/中/低)
## タイムライン
- 原則: タイムゾーン付き(RFC3339形式)を推奨(例: `2020-01-01T00:00:00+09:00`)
- 代替: 相対時刻(00:00 など)を使う場合は、先頭に基準タイムゾーン(JST/UTC)を明記
例:
- 2020-01-01T00:00:00+09:00 検知
- 2020-01-01T00:05:00+09:00 一次対応
## 暫定対応
- 何をしたか
- 成功条件
## 恒久対策
- 再発防止
- 期限と担当
記入例(最小)
事象
- 2026-02-23T10:12:00+09:00、API の 5xx が増加し、タイムアウトが発生
影響
- 対象: 決済 API
- 期間: 10:12〜10:35
- 影響: 一部リクエスト失敗(最大8%)
タイムライン
- 2026-02-23T10:12:00+09:00 検知(API 5xx 増加)
- 2026-02-23T10:15:00+09:00 直近変更を確認(デプロイ/設定変更なし)
- 2026-02-23T10:20:00+09:00 DB 接続枯渇を確認(接続待ち増加)
- 2026-02-23T10:25:00+09:00 暫定対応を実施(接続プール上限を引き上げ)
- 2026-02-23T10:35:00+09:00 収束確認(エラー率が基準値に戻る)
暫定対応
- DB 接続プールの上限を一時的に引き上げ
- 成功条件: エラー率が基準値に戻り、タイムアウトが収束する
恒久対策
- 対策: 接続プール設定の見直し + 負荷試験の追加
- 期限/担当/検証: 期限と担当を明記し、検証手順(再現手順/合格基準)を PR に残す
具体例(悪い例→良い例)
悪い例
事象: 障害が発生
影響: 影響あり
暫定対応: 対応した
恒久対策: 注意する
良い例
事象: 2026-02-23T10:12:00+09:00 決済 API で 5xx/タイムアウトが増加
影響: 決済 API、10:12〜10:35、最大8%失敗
タイムライン: 10:12 検知 → 10:25 暫定対応 → 10:35 収束
暫定対応: 接続プール上限を引き上げ(成功条件: エラー率が基準値に戻る)
恒久対策: 設定見直し+負荷試験追加(期限/担当/検証を記載)