Kubernetesクラスタ設計・運用実践ガイド

第0章：前提とスコープ

本章では、本書の前提（責任範囲、用語、扱う/扱わない）を明確化し、以降の章で議論のブレを減らします。

学習目標

プラットフォーム（クラスタ運用）とワークロード（アプリ運用）の責任境界を説明できる
本書で扱う設計・運用の論点と、扱わない範囲を切り分けられる
本書のアウトプット（チェックリスト/フロー/Runbook の型）を自組織に適用できる

扱う範囲 / 扱わない範囲

扱う範囲

クラスタの設計・運用（HA、アップグレード、監視、セキュリティ、障害対応）
運用標準（変更管理、バックアップ/リストア、定常点検）
マルチテナント/リソース管理（Namespace、Quota など）

扱わない範囲

アプリ配置の基礎（Pod/Deployment/Service/Ingressの基本操作）
- 入門書: Kubernetes入門：PodからIngressまで（基礎と実践）
個別ベンダの GUI 操作手順や、特定製品の詳細設定手順
すべての KEP/機能詳細の網羅

責任範囲（共有責任モデルの入口）

代表的な責任分界の例を示します（組織により調整が必要です）。

項目	プラットフォーム（クラスタ運用）	テナント/アプリ
クラスタ作成/アップグレード	主担当	影響確認/受け入れ
CNI/CSI/Ingress Controller	主担当	利用要件の提示
RBAC/Namespace 標準	主担当	申請/遵守
アプリのデプロイ/更新	支援（基盤提供）	主担当
監視/ログの基盤	主担当	SLI/SLO定義/アラート運用
バックアップ/復旧演習	主担当（基盤）	アプリ要件（RTO/RPO）

用語（最低限）

SLI: Service Level Indicator（指標）
SLO: Service Level Objective（目標）
SLA: Service Level Agreement（合意）
RTO: Recovery Time Objective（復旧時間目標）
RPO: Recovery Point Objective（復旧時点目標）
Control Plane: API/スケジューラ/コントローラなどクラスタ制御系
Node: ワークロードが実行される計算資源
Tenant: 共有クラスタを利用する組織/チーム/環境の単位

本書の成果物（運用物）

本書は「読む」だけでなく、以下を運用物として整備することを目的とします。

運用チェックリストPack（付録A）
トラブルシュートフロー集（付録B）
変更管理/復旧/監査に必要な観点（各章の実務チェック観点）

本書の共通軸: 監視/ログ/復旧

クラスタ運用は多領域に分かれますが、本書では以下を共通軸として扱います。

監視: SLI/SLO、アラート（ノイズ制御含む）、ダッシュボード、オンコール
ログ: 収集/保持/検索性、アクセス制御、監査ログ、PII の取り扱い
復旧: バックアップ/リストア、RTO/RPO、演習、暫定復旧と恒久対応

各章の「実務チェック観点」は、可能な限りこの三点セットと接続して定義します。

実務チェック観点（最低5項目）

責任範囲（プラットフォーム/テナント）の明文化と例外運用の管理
監視（SLI/SLO、アラート閾値、ノイズ制御、オンコール体制）
ログ（収集/保持/検索性、権限、PII 取り扱い）
復旧（バックアップ/リストア、RTO/RPO、演習）
変更管理（リリース手順、ロールバック、検証、承認フロー）

よくある落とし穴

「誰が何を運用するか」を合意しないまま、障害対応やアップグレードを迎える
チェックリストを作成しても、証跡が残らず形骸化する

まとめ / 次に読む

次に読む: 第1章：クラスタ設計の全体像

Edit this page on GitHub