チェックリスト集

Severity(P0/P1/P2/P3)最小定義

Severity 目安 初動
P0 全面停止/重大な情報漏えいの疑い ログイン不可、決済停止、秘密情報の外部流出 直ちに対応、関係者招集、変更凍結も検討
P1 主要機能の劣化/限定的な情報漏えいの疑い 一部APIエラー増加、特定顧客のみ影響 優先対応、迂回策/ロールバック判断
P2 影響が限定的/回避可能 管理画面のみ不具合、手動対応で回避可 予定化、恒久対策の計画
P3 影響が軽微/改善要望 表示崩れ、低頻度の警告 低優先(バックログ化して定期見直し)

関連(秘密情報漏えい疑いの初動/証跡/隔離): セキュリティ/プライバシー リテラシー

役割(最小)

役割 主な責務 権限/判断
IC(Incident Commander) 全体の優先度付け、復旧方針、タスク割り当て 迂回策/ロールバックの判断、連絡方針
調査(SME) 原因候補の絞り込み、検証、証跡整理 追加調査の指示、再現のための環境確保
復旧担当 迂回策/ロールバック/修正の適用 手順の実行、変更リスクの報告
連絡/広報 ステータス更新、対外/対内コミュニケーション 周知内容の合意、更新頻度/粒度
記録係 タイムライン、判断理由、実施内容の記録 証跡の回収、ポストモーテム素材化

注: 本書では「切り戻し」は「ロールバック」と同義として扱う。

  • 小規模では兼務でよい(ただし IC と記録は分けると混乱を抑えやすい)

初動チェック

  • 証跡保全(ログ/メトリクス/設定)
  • 誤操作防止(権限/手順の統制)
  • 関係者連絡(影響/次アクション)

切り分けチェック

  • 影響範囲の縮小(どこまで壊れているか)
  • 比較(正常系との差分)
  • 直近変更点の確認

復旧判断チェック

  • ロールバック可否
  • 暫定措置のリスク
  • 影響見込み(顧客/売上/法令)

暫定対応→恒久対策(判断の最小観点)

  • 暫定対応が“安全側”か(データ整合性/セキュリティ/コスト)
  • 恒久対策の前提が揃っているか(再現性/原因候補/影響範囲)
  • ロールバック条件(どの指標で戻すか)を定義した

通しの訓練シナリオ(例)

初学者が進め方で迷わないよう、検知→Severity→役割→タイムライン→状況共有→エスカレーション→復旧→ポストモーテムまでの一連の流れを例示する。

シナリオ(例)

  • 事象: 決済 API で 5xx が増加し、決済失敗が一部顧客で発生
  • 想定 Severity: P1(主要機能の劣化)。失敗率が高い/継続する場合は P0 に引き上げ

進め方(テンプレを埋める場所)

タイムライン例(抜粋)

注: 時刻はタイムゾーンを明記する(例: JST/UTC)。

時刻 観測/状況 判断/アクション 記録(どこに残すか)
10:00 JST アラート: 決済 API の 5xx 率が上昇 IC 任命、Severity 暫定 P1 incident-log / timeline
10:05 JST 影響確認: 失敗率 6%(直近 30 分) 15 分ごとの状況共有を開始 status-update
10:10 JST 直近変更: PR#123 のデプロイが疑わしい ロールバック可否と副作用(DB 変更有無)を確認 incident-log
10:15 JST DB マイグレーションなし ロールバック判断(手順/検証項目を確認) timeline
10:25 JST ロールバック実施 エラー率/レイテンシ/決済成功率で効果確認 status-update
10:40 JST 指標が正常化 恒久対策の Issue 化、再発防止(検知/手順)着手 postmortem