第0章:前提とスコープ
本章では、本書の前提(責任範囲、用語、扱う/扱わない)を明確化し、以降の章で議論のブレを減らします。
学習目標
- プラットフォーム(クラスタ運用)とワークロード(アプリ運用)の責任境界を説明できる
- 本書で扱う設計・運用の論点と、扱わない範囲を切り分けられる
- 本書のアウトプット(チェックリスト/フロー/Runbook の型)を自組織に適用できる
扱う範囲 / 扱わない範囲
扱う範囲
- クラスタの設計・運用(HA、アップグレード、監視、セキュリティ、障害対応)
- 運用標準(変更管理、バックアップ/リストア、定常点検)
- マルチテナント/リソース管理(Namespace、Quota など)
扱わない範囲
- アプリ配置の基礎(Pod/Deployment/Service/Ingressの基本操作)
- 個別ベンダの GUI 操作手順や、特定製品の詳細設定手順
- すべての KEP/機能詳細の網羅
責任範囲(共有責任モデルの入口)
代表的な責任分界の例を示します(組織により調整が必要です)。
| 項目 | プラットフォーム(クラスタ運用) | テナント/アプリ |
|---|---|---|
| クラスタ作成/アップグレード | 主担当 | 影響確認/受け入れ |
| CNI/CSI/Ingress Controller | 主担当 | 利用要件の提示 |
| RBAC/Namespace 標準 | 主担当 | 申請/遵守 |
| アプリのデプロイ/更新 | 支援(基盤提供) | 主担当 |
| 監視/ログの基盤 | 主担当 | SLI/SLO定義/アラート運用 |
| バックアップ/復旧演習 | 主担当(基盤) | アプリ要件(RTO/RPO) |
用語(最低限)
- SLI: Service Level Indicator(指標)
- SLO: Service Level Objective(目標)
- SLA: Service Level Agreement(合意)
- RTO: Recovery Time Objective(復旧時間目標)
- RPO: Recovery Point Objective(復旧時点目標)
- Control Plane: API/スケジューラ/コントローラなどクラスタ制御系
- Node: ワークロードが実行される計算資源
- Tenant: 共有クラスタを利用する組織/チーム/環境の単位
本書の成果物(運用物)
本書は「読む」だけでなく、以下を運用物として整備することを目的とします。
- 運用チェックリストPack(付録A)
- トラブルシュートフロー集(付録B)
- 変更管理/復旧/監査に必要な観点(各章の実務チェック観点)
本書の共通軸: 監視/ログ/復旧
クラスタ運用は多領域に分かれますが、本書では以下を共通軸として扱います。
- 監視: SLI/SLO、アラート(ノイズ制御含む)、ダッシュボード、オンコール
- ログ: 収集/保持/検索性、アクセス制御、監査ログ、PII の取り扱い
- 復旧: バックアップ/リストア、RTO/RPO、演習、暫定復旧と恒久対応
各章の「実務チェック観点」は、可能な限りこの三点セットと接続して定義します。
実務チェック観点(最低5項目)
- 責任範囲(プラットフォーム/テナント)の明文化と例外運用の管理
- 監視(SLI/SLO、アラート閾値、ノイズ制御、オンコール体制)
- ログ(収集/保持/検索性、権限、PII 取り扱い)
- 復旧(バックアップ/リストア、RTO/RPO、演習)
- 変更管理(リリース手順、ロールバック、検証、承認フロー)
よくある落とし穴
- 「誰が何を運用するか」を合意しないまま、障害対応やアップグレードを迎える
- チェックリストを作成しても、証跡が残らず形骸化する
まとめ / 次に読む
- 次に読む: 第1章:クラスタ設計の全体像