付録B: 診断チェックリスト集
各種障害シナリオに対応した体系的なチェックリストと診断フローを示します。
レイヤー別診断チェックリスト
物理・ハードウェア層チェックリスト
基本確認項目
- 電源供給状況(ケーブル接続、電源ユニット動作)
- ネットワークケーブル物理接続
- ハードウェアステータスLED確認
- 温度・冷却システム状態
- メモリ・ストレージの物理的接続
診断コマンド
dmesg | grep -i error
- ハードウェアエラーログ確認lshw
- ハードウェア構成詳細確認sensors
- 温度・電圧センサー確認smartctl -a /dev/sda
- ストレージ健全性確認
OS・カーネル層チェックリスト
システム状態確認
- システム負荷状況(CPU、メモリ、ディスク)
- カーネルエラーメッセージ確認
- 重要システムプロセス動作確認
- ファイルシステム整合性確認
- システムリソース制限確認
診断コマンド
uptime
- システム負荷確認free -h
- メモリ使用状況確認df -h
- ディスク使用量確認systemctl --failed
- 失敗サービス確認journalctl -p err
- エラーレベルログ確認
ネットワーク層チェックリスト
接続性確認
- 物理接続確認(ケーブル、ポート状態)
- IP設定確認(アドレス、サブネット、ゲートウェイ)
- DNS設定確認
- ルーティング設定確認
- ファイアウォール設定確認
疎通確認
ping
- 基本疎通確認traceroute
- 経路確認nslookup/dig
- DNS解決確認telnet host port
- ポート疎通確認ss -tuln
- ポート待受状態確認
アプリケーション層チェックリスト
サービス状態確認
- アプリケーションプロセス動作確認
- 設定ファイル構文確認
- ログファイル容量・権限確認
- 依存サービス動作確認
- リソース使用量確認
機能確認
- アプリケーション起動・停止テスト
- 基本機能動作テスト
- エラーログ内容確認
- パフォーマンス指標確認
症状別トラブルシューティングガイド
システム応答なし
初期確認(5分以内)
- 物理アクセス可能性確認
- ネットワーク疎通確認(ping)
- システム負荷状況確認
- 重要プロセス動作確認
- 直近のシステム変更確認
詳細調査(15分以内)
- システムログ確認(kernel panic、OOM killer)
- リソース枯渇確認(CPU、メモリ、ディスク)
- ネットワーク設定確認
- サービス依存関係確認
- ハードウェア異常確認
パフォーマンス低下
リソース確認
- CPU使用率とプロセス確認(
top
,htop
) - メモリ使用量確認(
free
,vmstat
) - ディスクI/O確認(
iostat
,iotop
) - ネットワーク使用量確認(
iftop
,nethogs
) - ロードアベレージ推移確認
アプリケーション確認
- アプリケーションログ確認
- データベース性能確認
- 外部サービス依存確認
- キャッシュ効率確認
- 設定変更履歴確認
接続不可
ネットワーク段階的確認
- 物理層:ケーブル、ポート、LED状態
- データリンク層:インターフェース状態
- ネットワーク層:IP設定、ルーティング
- トランスポート層:ポート待受、ファイアウォール
- アプリケーション層:サービス動作、設定
段階的疎通確認
- 自己宛ping(127.0.0.1)
- 同一セグメント内疎通
- デフォルトゲートウェイ疎通
- 外部ホスト疎通
- DNS解決確認
インシデント対応手順
初動対応(10分以内)
1. 状況把握
- 障害範囲確認(影響するシステム・ユーザー)
- 障害レベル判定(重要度・緊急度)
- 関係者への初報連絡
- 対応体制確立
2. 緊急措置
- 影響範囲の限定措置
- 代替手段の提供
- データ保護措置
- ログ・証跡保全
本格対応(30分〜)
1. 詳細調査
- 根本原因分析
- 影響範囲の詳細調査
- 復旧方法の検討
- リスク評価
2. 復旧作業
- 復旧計画策定
- バックアップからの復旧準備
- 段階的復旧実行
- 動作確認・検証
事後対応
1. 復旧確認
- 全機能の動作確認
- パフォーマンス確認
- 監視アラート正常化確認
- ユーザー影響解消確認
2. 報告・改善
- インシデントレポート作成
- 根本原因分析結果
- 再発防止策検討
- 予防保守計画更新
エスカレーション判断基準
自動エスカレーション条件
- 重要システムの30分以上の停止
- セキュリティインシデントの兆候
- データ損失・破損の可能性
- 顧客影響を伴うサービス停止
- 復旧見通しが立たない状況
エスカレーション先
- 技術エスカレーション
- 上位技術者・専門家
- ベンダーサポート
- 外部コンサルタント
- 管理エスカレーション
- 部門管理者
- 経営層
- 広報・法務部門
エスカレーション情報
- 障害発生時刻・期間
- 影響範囲・被害状況
- 実施済み対応策
- 復旧見込み時刻
- 必要なリソース・支援
障害復旧確認項目
システム機能確認
- 基本機能動作確認
- パフォーマンス基準達成確認
- 冗長性・可用性確認
- バックアップ・復旧機能確認
- 監視・アラート機能確認
データ整合性確認
- データベース整合性チェック
- ファイルシステム整合性確認
- レプリケーション同期確認
- バックアップデータ確認
- ログファイル連続性確認
セキュリティ確認
- アクセス制御機能確認
- 認証・認可機能確認
- 暗号化機能確認
- 監査ログ機能確認
- セキュリティパッチ適用状況
運用確認
- 定常運用手順実行確認
- 監視システム正常性確認
- バックアップスケジュール確認
- 保守作業スケジュール確認
- ドキュメント更新完了
予防保守チェックリスト
日次確認項目
- システム稼働状況確認
- リソース使用量確認
- エラーログ確認
- バックアップ実行結果確認
- セキュリティアラート確認
週次確認項目
- パフォーマンス傾向分析
- ディスク使用量増加傾向
- ログローテーション確認
- セキュリティパッチ情報確認
- 監視閾値妥当性確認
月次確認項目
- システム全体健全性評価
- 容量計画見直し
- 障害傾向分析
- 復旧手順書更新
- 訓練・研修計画確認
これらのチェックリストを状況に応じて活用し、系統的で確実なトラブルシューティングを実践してください。チェックリストは組織の環境に合わせてカスタマイズし、継続的に改善していくことが重要です。