第0章:前提とスコープ

本章では、本書の前提(責任範囲、用語、扱う/扱わない)を明確化し、以降の章で議論のブレを減らします。

学習目標

  • プラットフォーム(クラスタ運用)とワークロード(アプリ運用)の責任境界を説明できる
  • 本書で扱う設計・運用の論点と、扱わない範囲を切り分けられる
  • 本書のアウトプット(チェックリスト/フロー/Runbook の型)を自組織に適用できる

扱う範囲 / 扱わない範囲

扱う範囲

  • クラスタの設計・運用(HA、アップグレード、監視、セキュリティ、障害対応)
  • 運用標準(変更管理、バックアップ/リストア、定常点検)
  • マルチテナント/リソース管理(Namespace、Quota など)

扱わない範囲

責任範囲(共有責任モデルの入口)

代表的な責任分界の例を示します(組織により調整が必要です)。

項目 プラットフォーム(クラスタ運用) テナント/アプリ
クラスタ作成/アップグレード 主担当 影響確認/受け入れ
CNI/CSI/Ingress Controller 主担当 利用要件の提示
RBAC/Namespace 標準 主担当 申請/遵守
アプリのデプロイ/更新 支援(基盤提供) 主担当
監視/ログの基盤 主担当 SLI/SLO定義/アラート運用
バックアップ/復旧演習 主担当(基盤) アプリ要件(RTO/RPO)

用語(最低限)

  • SLI: Service Level Indicator(指標)
  • SLO: Service Level Objective(目標)
  • SLA: Service Level Agreement(合意)
  • RTO: Recovery Time Objective(復旧時間目標)
  • RPO: Recovery Point Objective(復旧時点目標)
  • Control Plane: API/スケジューラ/コントローラなどクラスタ制御系
  • Node: ワークロードが実行される計算資源
  • Tenant: 共有クラスタを利用する組織/チーム/環境の単位

本書の成果物(運用物)

本書は「読む」だけでなく、以下を運用物として整備することを目的とします。

  • 運用チェックリストPack(付録A)
  • トラブルシュートフロー集(付録B)
  • 変更管理/復旧/監査に必要な観点(各章の実務チェック観点)

本書の共通軸: 監視/ログ/復旧

クラスタ運用は多領域に分かれますが、本書では以下を共通軸として扱います。

  • 監視: SLI/SLO、アラート(ノイズ制御含む)、ダッシュボード、オンコール
  • ログ: 収集/保持/検索性、アクセス制御、監査ログ、PII の取り扱い
  • 復旧: バックアップ/リストア、RTO/RPO、演習、暫定復旧と恒久対応

各章の「実務チェック観点」は、可能な限りこの三点セットと接続して定義します。

実務チェック観点(最低5項目)

  • 責任範囲(プラットフォーム/テナント)の明文化と例外運用の管理
  • 監視(SLI/SLO、アラート閾値、ノイズ制御、オンコール体制)
  • ログ(収集/保持/検索性、権限、PII 取り扱い)
  • 復旧(バックアップ/リストア、RTO/RPO、演習)
  • 変更管理(リリース手順、ロールバック、検証、承認フロー)

よくある落とし穴

  • 「誰が何を運用するか」を合意しないまま、障害対応やアップグレードを迎える
  • チェックリストを作成しても、証跡が残らず形骸化する

まとめ / 次に読む