第7章:Runbook(平常時/異常時/エスカレーション)
この章で学ぶこと
- Runbook は「運用を回す」ための成果物である
- 平常時/異常時/切り分け/エスカレーション/復旧判断を揃える
- 連絡先と判断基準を明文化する
この章の成果物(または判断基準)
- Runbook(付録テンプレ: Runbookテンプレ)
- 異常時の切り分け手順とエスカレーション基準
本文
本章は、テンプレ→記入例→落とし穴→チェックリストの順で整理する。
テンプレ
- 付録: Runbookテンプレ
記入例(要点)
- 平常時: 監視と定常作業
- 異常時: 初動(確認順)
- 切り分け: 比較/変更点確認
- エスカレーション: いつ/誰に/何を
- 復旧判断: 暫定/恒久、ロールバック
よくある落とし穴
- 連絡先が古い
- 初動が「ログを見る」で止まる
- 判断基準が無く、エスカレーションが遅れる
具体例(悪い例→良い例)
悪い例
異常時: 対応する
連絡先: 記載なし
復旧判断: 判断基準なし
良い例
初動: 1) エラー率 2) 直近変更 3) DB 接続
エスカレーション: 15分以上、復旧見込みなし→インシデントコマンダー(IC)/主管へ
連絡先: オンコール、主管、外部ベンダー
復旧判断: ロールバック可否と影響度で判断
チェックリスト
- 平常時/異常時が分かれている
- 初動の確認順がある
- 切り分けの観点がある
- エスカレーション基準がある
- 連絡先がある
まとめ
- 平常時/異常時を分離し、初動(確認順)・切り分け・エスカレーション・復旧判断を標準化する
- 連絡先と判断基準は陳腐化しやすいため、棚卸し前提で運用する
次章への接続
- 次章: 第8章