エンジニアリングドキュメント実践ガイド：README・手順書・Runbook・ADR・ポストモーテム

Runbook テンプレ

平常時/異常時の運用を統一し、判断を短時間で再現します。

コピペ用テンプレ

## 平常時

- 日次/週次/月次
- 監視項目と閾値

## 異常時

- アラート受信時の初動（確認順）
- 切り分け（範囲縮小/比較/変更点）

## エスカレーション

- いつ/誰に/何を伝えるか
- 必要情報（影響、暫定対応、次アクション）

## 復旧判断

- 暫定 vs 恒久
- ロールバック判断

## 成功条件（確認観点）の例

- 外形: 主要なユーザー操作が成立する（例: ログイン、保存、決済）
- メトリクス: エラー率が基準値に戻る、キュー滞留が解消する
- ログ: 例外の新規発生が止まり、再発兆候がない

## 連絡先

- オンコール
- 主管部署

記入例（最小）

注: 下記は例示です。監視項目/閾値/判断基準はサービス特性に合わせて要調整です。

平常時

日次: アラート件数と傾向を確認し、誤検知の候補を記録する
週次: 直近変更（デプロイ/設定変更）と主要メトリクスの相関を確認する
監視（例）:
- API 5xx 率（閾値: 1% 超で注意、5% 超で緊急）
- p95 レイテンシ（閾値: 1.5s 超で注意、3.0s 超で緊急）

異常時

初動（確認順）:
1. 外形確認（主要ユーザー操作が成立するか）
2. 直近変更の有無（デプロイ/設定変更/依存サービスの変更）
3. 依存関係（DB/キュー/外部API）の健全性
切り分け（例）:
- 影響範囲を縮小（特定の機能/リージョン/テナントに限定されるか）
- 正常時との差分比較（昨日同時刻/直近リリース前）
- ログ/メトリクスでボトルネック候補を列挙する

エスカレーション

IC（Incident Commander）: 指揮・優先順位・関係者調整を担う役割
基準（例）:
- 影響が継続し、15分以内に収束見込みが立たない
- 重要機能（決済/認証など）の停止、またはデータ整合性リスクがある
伝達（最低限）: 影響範囲、暫定対応、次アクション、想定リスク、依頼事項

復旧判断

暫定対応: 影響を止める（例: 機能フラグで無効化、リソース拡張、遮断/迂回）
恒久対応: 真因に手を入れる（例: 設計修正、性能改善、検知強化）
ロールバック判断（例）:
- 直近変更が原因候補で、戻せば影響が止まる見込みが高い
- データ互換性（スキーマ変更等）がある場合は、復旧手順を別途参照する

成功条件（確認観点）の例

外形: 主要操作（ログイン/保存/決済）が成立する
メトリクス: エラー率・レイテンシが基準値に戻る
ログ: 新規エラーが収束し、再発兆候がない

連絡先

オンコール: Slack #oncall / 電話（要組織定義）
主管部署: SRE/インフラ
外部ベンダー: 契約窓口（要組織定義）

具体例（悪い例→良い例）

悪い例

異常時: 対応する
エスカレーション: 必要に応じて連絡
連絡先: 記載なし

良い例

初動: 1) エラー率 2) 直近変更 3) 依存関係（DB/キュー）
エスカレーション: 15分以上、復旧見込みなし→IC/主管へ
連絡先: オンコール、主管、外部ベンダー

Edit this page on GitHub