Runbook テンプレ
平常時/異常時の運用を統一し、判断を短時間で再現します。
コピペ用テンプレ
## 平常時
- 日次/週次/月次
- 監視項目と閾値
## 異常時
- アラート受信時の初動(確認順)
- 切り分け(範囲縮小/比較/変更点)
## エスカレーション
- いつ/誰に/何を伝えるか
- 必要情報(影響、暫定対応、次アクション)
## 復旧判断
- 暫定 vs 恒久
- ロールバック判断
## 成功条件(確認観点)の例
- 外形: 主要なユーザー操作が成立する(例: ログイン、保存、決済)
- メトリクス: エラー率が基準値に戻る、キュー滞留が解消する
- ログ: 例外の新規発生が止まり、再発兆候がない
## 連絡先
- オンコール
- 主管部署
記入例(最小)
注: 下記は例示です。監視項目/閾値/判断基準はサービス特性に合わせて要調整です。
平常時
- 日次: アラート件数と傾向を確認し、誤検知の候補を記録する
- 週次: 直近変更(デプロイ/設定変更)と主要メトリクスの相関を確認する
- 監視(例):
- API 5xx 率(閾値: 1% 超で注意、5% 超で緊急)
- p95 レイテンシ(閾値: 1.5s 超で注意、3.0s 超で緊急)
異常時
- 初動(確認順):
- 外形確認(主要ユーザー操作が成立するか)
- 直近変更の有無(デプロイ/設定変更/依存サービスの変更)
- 依存関係(DB/キュー/外部API)の健全性
- 切り分け(例):
- 影響範囲を縮小(特定の機能/リージョン/テナントに限定されるか)
- 正常時との差分比較(昨日同時刻/直近リリース前)
- ログ/メトリクスでボトルネック候補を列挙する
エスカレーション
- IC(Incident Commander): 指揮・優先順位・関係者調整を担う役割
- 基準(例):
- 影響が継続し、15分以内に収束見込みが立たない
- 重要機能(決済/認証など)の停止、またはデータ整合性リスクがある
- 伝達(最低限): 影響範囲、暫定対応、次アクション、想定リスク、依頼事項
復旧判断
- 暫定対応: 影響を止める(例: 機能フラグで無効化、リソース拡張、遮断/迂回)
- 恒久対応: 真因に手を入れる(例: 設計修正、性能改善、検知強化)
- ロールバック判断(例):
- 直近変更が原因候補で、戻せば影響が止まる見込みが高い
- データ互換性(スキーマ変更等)がある場合は、復旧手順を別途参照する
成功条件(確認観点)の例
- 外形: 主要操作(ログイン/保存/決済)が成立する
- メトリクス: エラー率・レイテンシが基準値に戻る
- ログ: 新規エラーが収束し、再発兆候がない
連絡先
- オンコール: Slack #oncall / 電話(要組織定義)
- 主管部署: SRE/インフラ
- 外部ベンダー: 契約窓口(要組織定義)
具体例(悪い例→良い例)
悪い例
異常時: 対応する
エスカレーション: 必要に応じて連絡
連絡先: 記載なし
良い例
初動: 1) エラー率 2) 直近変更 3) 依存関係(DB/キュー)
エスカレーション: 15分以上、復旧見込みなし→IC/主管へ
連絡先: オンコール、主管、外部ベンダー