第9章 運用・監視・トラブルシュート

章のゴール

本章では、Proxmox VE 環境を日常的に運用するうえでの基本的なタスクと、 監視・ログ確認・トラブルシュートの入り口となる考え方を整理します。

この章で分かること / 分からないこと

  • 分かること:
    • 日次/週次/月次でやると良い “最低限の運用”
    • まず何を見て、何を切り分けるか(トラブルシュートの入口)
  • 分からないこと(別パスで扱います):
    • 特定の監視製品(Prometheus など)に依存した詳細設計
    • カーネル/ハードウェア故障の深いデバッグ(環境差が大きい)

用語メモ(最小)

  • タスク(Tasks): Web UI で実行された操作の履歴(成功/失敗の入口になりやすい)
  • Syslog: ノードのログの入口(詳細はホスト OS のログも併用する)
  • Runbook: 手順を標準化した運用メモ(「誰がやっても同じになる」ことが目的)

最初に見る場所(チェックリスト)

トラブル時にいきなり深掘りすると迷子になりがちです。まずは次の順で “入口” を確認します。

  1. 何が起きたか(症状・影響範囲・発生時刻)をメモする
  2. Web UI の Task History / Syslog で、直近の失敗タスクやエラーを確認する
  3. ノード/ゲストの概要画面(リソースグラフ)で、CPU/メモリ/ディスクI/O の異常がないか見る
  4. 必要に応じてホスト OS のログ(journalctl など)へ進む

図としての全体像は diagrams/part4/ch9/triage-flow.svg を参照してください。

スクリーンショット(TODO):

  • 取得対象(Issue #2):
    • images/part4/ch9/01-node-syslog.png Web UI の Syslog 画面(ノード単位)
    • images/part4/ch9/02-task-history.png Task History 画面(ジョブの成功/失敗が分かる例)
    • images/part4/ch9/03-node-dashboard-resource-graphs.png ノードダッシュボードのリソースグラフ(CPU / メモリ / ディスク I/O)

日次・週次・月次の運用チェックリスト(例)

日次

  • バックアップジョブの結果確認
  • 重要な VM / コンテナの稼働状況確認
  • リソース使用率(CPU / メモリ / ストレージ)の簡易チェック

週次

  • ストレージ使用量の推移確認と将来予測のメモ
  • クラスタ状態(ノードの状態、クォーラム)の確認
  • 監視システムのアラート履歴レビュー

月次

  • バックアップ・リストア手順のリハーサル
  • バージョンアップやパッチ適用の検討(リリースノートと既知の問題を確認し、必要ならメンテナンス計画を立てる)
  • 運用ドキュメントや Runbook の見直し

ログと基本的な指標の読み方(概要)

Proxmox VE の運用では、Web UI やホスト OS 上のログ、監視ツールを組み合わせて状態を把握します。

  • Web UI の「Syslog」や「Task History」で、直近のジョブやエラーを確認する
  • ホスト OS のログファイル(例: journalctl や /var/log/syslog)を参照し、ハードウェアやサービスの異常を確認する
  • CPU / メモリ / ストレージ I/O のグラフを俯瞰し、平常と異なるパターンがないかを見る

代表的なトラブルシュートシナリオ(例)

ケース 1: VM に接続できない

  • ネットワーク経路の確認(VM の NIC 設定、ブリッジ、スイッチ側の設定など)
  • 直近の設定変更やメンテナンスの有無を確認する

ケース 2: ストレージの空き容量が逼迫している

  • 不要なスナップショットやテンポラリディスクの整理
  • バックアップ先の容量とローテーションポリシーの見直し
  • 将来的な容量増設の検討

ケース 3: バックアップジョブが失敗する

  • エラーメッセージとログの確認
  • ネットワークやストレージへの到達性確認
  • 対象 VM の状態(ロック状態や負荷状況)の確認

これらのシナリオはあくまで入口であり、実際のトラブルシュートでは環境固有の要素も考慮する必要があります。 重要なのは、「何がいつからおかしくなったのか」「どのコンポーネントに影響がありそうか」を切り分ける視点です。