第3章:ログ・メトリクス・トレースの当たり方(最低限)

この章で学ぶこと

  • 観測の入口を決める(ログ/メトリクス/トレース)
  • request-id 等で点を線にする
  • “正常との差分”で見る

成果物(または判断基準)

  • 観測点(何を見るか)のメモ
  • 切り分けに使う証跡(ログ抜粋等)

本文

最低限は“どの層で破綻しているか”を特定すること。アプリケーション/DB/外部依存のいずれかに切り分ける。

注: “正常との差分”を見るために、比較対象(直近の正常期間、同時間帯、同リージョン等)を先に決める。

当たり方(例)

  • メトリクス: エラー率、レイテンシ、飽和(接続数/CPU)
  • ログ: エラー種類、request-id、直近変更の影響
  • トレース: どこで詰まっているか(外部呼び出し等)

観測結果はタイムラインに記録し、判断の根拠として残す。

具体例(場当たり→再現性)

悪い例(場当たり)

ログを `grep` で眺めるだけ
メトリクスもトレースも見ない
どの層が原因かが特定できない

良い例(再現性)

メトリクス: レイテンシ上昇と DB 接続待ち増加を確認
ログ: request-id でエラーとクエリ遅延をひも付け
トレース: 外部依存は正常、DB 呼び出しがボトルネック
記録: 根拠(グラフ/ログ抜粋)を保存

チェックリスト

  • 入口(どの観測を優先するか)が決まっている
  • 正常との差分で見ている
  • 証跡(グラフ/ログ抜粋)が残っている

まとめ

  • 観測の入口(ログ/メトリクス/トレース)を決め、層を切り分ける
  • request-id 等で関連するログをひも付け、点ではなく線で追う
  • 正常時との差分を前提にし、根拠(グラフ/ログ抜粋)を記録する

次章への接続