第7章:Runbook(平常時/異常時/エスカレーション)

この章で学ぶこと

  • Runbook は「運用を回す」ための成果物である
  • 平常時/異常時/切り分け/エスカレーション/復旧判断を揃える
  • 連絡先と判断基準を明文化する

この章の成果物(または判断基準)

  • Runbook(付録テンプレ: Runbookテンプレ
  • 異常時の切り分け手順とエスカレーション基準

本文

本章は、テンプレ→記入例→落とし穴→チェックリストの順で整理する。

テンプレ

記入例(要点)

  • 平常時: 監視と定常作業
  • 異常時: 初動(確認順)
  • 切り分け: 比較/変更点確認
  • エスカレーション: いつ/誰に/何を
  • 復旧判断: 暫定/恒久、ロールバック

よくある落とし穴

  • 連絡先が古い
  • 初動が「ログを見る」で止まる
  • 判断基準が無く、エスカレーションが遅れる

具体例(悪い例→良い例)

悪い例

異常時: 対応する
連絡先: 記載なし
復旧判断: 判断基準なし

良い例

初動: 1) エラー率 2) 直近変更 3) DB 接続
エスカレーション: 15分以上、復旧見込みなし→インシデントコマンダー(IC)/主管へ
連絡先: オンコール、主管、外部ベンダー
復旧判断: ロールバック可否と影響度で判断

チェックリスト

  • 平常時/異常時が分かれている
  • 初動の確認順がある
  • 切り分けの観点がある
  • エスカレーション基準がある
  • 連絡先がある

まとめ

  • 平常時/異常時を分離し、初動(確認順)・切り分け・エスカレーション・復旧判断を標準化する
  • 連絡先と判断基準は陳腐化しやすいため、棚卸し前提で運用する

次章への接続