付録A:運用チェックリストPack
本付録は、クラスタ運用で定常的に実施すべき点検項目をテンプレとしてまとめます。
実際の運用では、SLO/RTO/RPO/責任範囲に合わせて取捨選択してください。
使い方
- まず「誰が」「いつ」「どの証跡を残すか」を決めます。
- 自動化可能なものはジョブ化し、手作業は Runbook 化します。
- 重要: チェックリストは作るだけでなく、定期的に見直して更新します。
日次(例)
- 主要アラート(critical)の未処理がない
- Control Plane/Node の障害が継続していない
- etcd の容量/レイテンシが閾値を超えていない(監視指標で確認)
- クラスタの変更(直近24h)の実施状況と結果が記録されている
- バックアップ(スナップショット等)が成功している(失敗時のエスカレーション経路がある)
週次(例)
- ノードの脆弱性/パッチ適用状況を確認した
- 容量(CPU/メモリ/ディスク/IP)逼迫の兆候がない
- 監査ログ/アクセスログの保持状況と権限を点検した
- 主要な運用ジョブ(バックアップ、ログローテーション等)が想定どおり動作している
月次(例)
- SLO レビュー(達成状況、アラートの有効性、改善項目)を実施した
- 権限棚卸し(RBAC/特権操作/管理者権限)を実施した
- 変更管理(手順、承認、証跡)の運用が形骸化していない
変更時(例: アップグレード)
- 影響範囲(API、CNI、CSI、Ingress、アドオン)を整理した
- バージョンスキューと互換性(コントロールプレーン/ノード/クライアント)を確認した
- 事前バックアップとリストア手順の確認を実施した
- ロールバック条件(中断判断)と手順が定義されている
- 実施後の検証項目(smoke test、監視確認)が定義されている
アップグレード前チェックリスト(テンプレ)
※ 本チェックリストは一般形です。利用中のマネージドサービス/ディストリビューションやアドオンの一次情報(互換性表、リリースノート)に基づき調整してください。
- 目的/スコープ: 何をアップグレードするか(Control Plane/Node/アドオン/CRD)と非スコープが明確
- 互換性: Version Skew/アドオン互換性/非推奨 API の影響を確認(要確認: 対象環境の一次情報)
- 事前健全性: API/Node/(該当時)etcd/主要ワークロードが健全(重大アラートなし、再起動増なし)
- 退避/分散:
drainに備えた退避先キャパシティと PDB を確認(同時停止しない) - 変更凍結: 実施中の変更(アプリ/インフラ)凍結範囲と例外手続きが合意済み
- バックアップ: バックアップとリストア手順が確認済み(演習の有無と証跡を記録)
- 手順: 実施順(Control Plane→Node→アドオン等)と中断/ロールバック条件が定義済み
- 検証: smoke test と監視確認の観測点(何を見て合否判定するか)が定義済み
- 証跡: 変更ID/承認者/実施者/開始終了/検証結果を記録するフォーマットと格納先がある
復旧演習(例)
- バックアップからのリストア演習を定期実施している
- 障害時の連絡/エスカレーション手順が最新である
- Runbook/Playbook の改善が、ポストモーテムから反映されている