ITインフラトラブルシューティング大全

ホーム
Src
Appendices
付録b: 診断チェックリスト集

付録B: 診断チェックリスト集

各種障害シナリオに対応した体系的なチェックリストと診断フローを示します。

レイヤー別診断チェックリスト

物理・ハードウェア層チェックリスト

基本確認項目

電源供給状況（ケーブル接続、電源ユニット動作）
ネットワークケーブル物理接続
ハードウェアステータスLED確認
温度・冷却システム状態
メモリ・ストレージの物理的接続

診断コマンド

dmesg | grep -i error - ハードウェアエラーログ確認
lshw - ハードウェア構成詳細確認
sensors - 温度・電圧センサー確認
smartctl -a /dev/sda - ストレージ健全性確認

OS・カーネル層チェックリスト

システム状態確認

システム負荷状況（CPU、メモリ、ディスク）
カーネルエラーメッセージ確認
重要システムプロセス動作確認
ファイルシステム整合性確認
システムリソース制限確認

診断コマンド

uptime - システム負荷確認
free -h - メモリ使用状況確認
df -h - ディスク使用量確認
systemctl --failed - 失敗サービス確認
journalctl -p err - エラーレベルログ確認

ネットワーク層チェックリスト

接続性確認

物理接続確認（ケーブル、ポート状態）
IP設定確認（アドレス、サブネット、ゲートウェイ）
DNS設定確認
ルーティング設定確認
ファイアウォール設定確認

疎通確認

ping - 基本疎通確認
traceroute - 経路確認
nslookup/dig - DNS解決確認
telnet host port - ポート疎通確認
ss -tuln - ポート待受状態確認

アプリケーション層チェックリスト

サービス状態確認

アプリケーションプロセス動作確認
設定ファイル構文確認
ログファイル容量・権限確認
依存サービス動作確認
リソース使用量確認

機能確認

アプリケーション起動・停止テスト
基本機能動作テスト
エラーログ内容確認
パフォーマンス指標確認

症状別トラブルシューティングガイド

システム応答なし

初期確認（5分以内）

物理アクセス可能性確認
ネットワーク疎通確認（ping）
システム負荷状況確認
重要プロセス動作確認
直近のシステム変更確認

詳細調査（15分以内）

システムログ確認（kernel panic、OOM killer）
リソース枯渇確認（CPU、メモリ、ディスク）
ネットワーク設定確認
サービス依存関係確認
ハードウェア異常確認

パフォーマンス低下

リソース確認

CPU使用率とプロセス確認（top, htop）
メモリ使用量確認（free, vmstat）
ディスクI/O確認（iostat, iotop）
ネットワーク使用量確認（iftop, nethogs）
ロードアベレージ推移確認

アプリケーション確認

アプリケーションログ確認
データベース性能確認
外部サービス依存確認
キャッシュ効率確認
設定変更履歴確認

接続不可

ネットワーク段階的確認

物理層：ケーブル、ポート、LED状態
データリンク層：インターフェース状態
ネットワーク層：IP設定、ルーティング
トランスポート層：ポート待受、ファイアウォール
アプリケーション層：サービス動作、設定

段階的疎通確認

インシデント対応手順

初動対応（10分以内）

1. 状況把握

障害範囲確認（影響するシステム・ユーザー）
障害レベル判定（重要度・緊急度）
関係者への初報連絡
対応体制確立

2. 緊急措置

影響範囲の限定措置
代替手段の提供
データ保護措置
ログ・証跡保全

本格対応（30分〜）

1. 詳細調査

根本原因分析
影響範囲の詳細調査
復旧方法の検討
リスク評価

2. 復旧作業

復旧計画策定
バックアップからの復旧準備
段階的復旧実行
動作確認・検証

事後対応

1. 復旧確認

全機能の動作確認
パフォーマンス確認
監視アラート正常化確認
ユーザー影響解消確認

2. 報告・改善

インシデントレポート作成
根本原因分析結果
再発防止策検討
予防保守計画更新

エスカレーション判断基準

自動エスカレーション条件

重要システムの30分以上の停止
セキュリティインシデントの兆候
データ損失・破損の可能性
顧客影響を伴うサービス停止
復旧見通しが立たない状況

エスカレーション先

技術エスカレーション
- 上位技術者・専門家
- ベンダーサポート
- 外部コンサルタント
管理エスカレーション
- 部門管理者
- 経営層
- 広報・法務部門

エスカレーション情報

障害復旧確認項目

システム機能確認

基本機能動作確認
パフォーマンス基準達成確認
冗長性・可用性確認
バックアップ・復旧機能確認
監視・アラート機能確認

データ整合性確認

データベース整合性チェック
ファイルシステム整合性確認
レプリケーション同期確認
バックアップデータ確認
ログファイル連続性確認

セキュリティ確認

アクセス制御機能確認
認証・認可機能確認
暗号化機能確認
監査ログ機能確認
セキュリティパッチ適用状況

運用確認

定常運用手順実行確認
監視システム正常性確認
バックアップスケジュール確認
保守作業スケジュール確認
ドキュメント更新完了

予防保守チェックリスト

日次確認項目

システム稼働状況確認
リソース使用量確認
エラーログ確認
バックアップ実行結果確認
セキュリティアラート確認

週次確認項目

パフォーマンス傾向分析
ディスク使用量増加傾向
ログローテーション確認
セキュリティパッチ情報確認
監視閾値妥当性確認

月次確認項目

これらのチェックリストを状況に応じて活用し、系統的で確実なトラブルシューティングを実践してください。チェックリストは組織の環境に合わせてカスタマイズし、継続的に改善していくことが重要です。

Edit this page on GitHub