第3章:ログ・メトリクス・トレースの当たり方(最低限)
この章で学ぶこと
- 観測の入口を決める(ログ/メトリクス/トレース)
- request-id 等で点を線にする
- “正常との差分”で見る
成果物(または判断基準)
- 観測点(何を見るか)のメモ
- 切り分けに使う証跡(ログ抜粋等)
本文
最低限は“どの層で破綻しているか”を特定すること。アプリケーション/DB/外部依存のいずれかに切り分ける。
注: “正常との差分”を見るために、比較対象(直近の正常期間、同時間帯、同リージョン等)を先に決める。
当たり方(例)
- メトリクス: エラー率、レイテンシ、飽和(接続数/CPU)
- ログ: エラー種類、request-id、直近変更の影響
- トレース: どこで詰まっているか(外部呼び出し等)
観測結果はタイムラインに記録し、判断の根拠として残す。
具体例(場当たり→再現性)
悪い例(場当たり)
ログを `grep` で眺めるだけ
メトリクスもトレースも見ない
どの層が原因かが特定できない
良い例(再現性)
メトリクス: レイテンシ上昇と DB 接続待ち増加を確認
ログ: request-id でエラーとクエリ遅延をひも付け
トレース: 外部依存は正常、DB 呼び出しがボトルネック
記録: 根拠(グラフ/ログ抜粋)を保存
チェックリスト
- 入口(どの観測を優先するか)が決まっている
- 正常との差分で見ている
- 証跡(グラフ/ログ抜粋)が残っている
まとめ
- 観測の入口(ログ/メトリクス/トレース)を決め、層を切り分ける
- request-id 等で関連するログをひも付け、点ではなく線で追う
- 正常時との差分を前提にし、根拠(グラフ/ログ抜粋)を記録する
次章への接続
- 次章: 第4章