インシデント対応基礎：切り分け・状況共有・復旧・ポストモーテムの型

第3章：ログ・メトリクス・トレースの当たり方（最低限）

この章で学ぶこと

観測の入口を決める（ログ/メトリクス/トレース）
request-id 等で点を線にする
“正常との差分”で見る

成果物（または判断基準）

観測点（何を見るか）のメモ
切り分けに使う証跡（ログ抜粋等）

本文

最低限は“どの層で破綻しているか”を特定すること。アプリケーション/DB/外部依存のいずれかに切り分ける。

注: “正常との差分”を見るために、比較対象（直近の正常期間、同時間帯、同リージョン等）を先に決める。

当たり方（例）

メトリクス: エラー率、レイテンシ、飽和（接続数/CPU）
ログ: エラー種類、request-id、直近変更の影響
トレース: どこで詰まっているか（外部呼び出し等）

観測結果はタイムラインに記録し、判断の根拠として残す。

具体例（場当たり→再現性）

悪い例（場当たり）

ログを `grep` で眺めるだけ
メトリクスもトレースも見ない
どの層が原因かが特定できない

良い例（再現性）

メトリクス: レイテンシ上昇と DB 接続待ち増加を確認
ログ: request-id でエラーとクエリ遅延をひも付け
トレース: 外部依存は正常、DB 呼び出しがボトルネック
記録: 根拠（グラフ/ログ抜粋）を保存

チェックリスト

入口（どの観測を優先するか）が決まっている
正常との差分で見ている
証跡（グラフ/ログ抜粋）が残っている

まとめ

観測の入口（ログ/メトリクス/トレース）を決め、層を切り分ける
request-id 等で関連するログをひも付け、点ではなく線で追う
正常時との差分を前提にし、根拠（グラフ/ログ抜粋）を記録する

次章への接続

次章: 第4章

Edit this page on GitHub