すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:Pod 診断

最終更新日:Mar 26, 2026

Container Intelligence Service は、専門家ルールによるチェックと AI アシスト型診断モデルを活用して Pod を診断します。Pod が異常な状態になると、診断エンジンが対象ノードからデータを収集し、異常を検出し、事前定義された診断チェックを実行して根本原因を特定し、推奨される修正策を提示します。

重要

Pod 診断を実行すると、ACK はクラスター内の各ノードにデータ収集プログラムをデプロイします。このプログラムは、システムバージョン、ワークロードのステータス、Docker および kubelet のステータス、およびシステムログからの主要なエラーメッセージを収集します。ただし、業務データや機密情報は一切収集しません。

仕組み

診断結果は、以下の 4 段階で生成されます:

Node diagnostics
  1. 異常の検出 — ノードステータス、Pod ステータス、クラスターイベントストリームを収集し、異常を検出します。

  2. データ収集 — 検出された異常に応じて、Kubernetes 上のノード情報、ECS インスタンス情報、Docker プロセスのステータス、kubelet プロセスのステータスなど、文脈に応じたデータを収集します。

  3. 診断項目のチェック — 収集されたデータに対して主要なメトリックをチェックします。ノード診断はカテゴリ別にグループ化されており、各カテゴリには診断項目とその説明が一覧表示されます。

  4. 根本原因分析 — 専門家モードと AI モードの両方を用いて、収集されたデータおよびチェック結果に基づき根本原因を分析します。

診断結果

各診断実行では、以下の 2 種類の出力が生成されます:

  • 根本原因分析結果 — 検出された異常、根本原因、および推奨される修正策。

  • 診断項目のチェック結果 — 各診断項目のパス/フェイルステータス。パターンマッチングのみでは見逃されがちな問題を明らかにするため、根本原因分析を補完します。

利用可能な診断項目は、クラスターの構成によって異なります。診断ページに表示される項目が公式の内容です。

対応するシナリオ

以下に、Pod 診断および AI アシスト型診断が対応するシナリオの一覧を示します。

カテゴリシナリオ
Pod 診断Pod がスケジューラによって処理されていない
スケジューリング制約違反により Pod がスケジュールできない
Pod はスケジュールされているが、kubelet によって処理されていない
Pod がボリュームの Ready 状態になるのを待っている
Pod が強制終了(evicted)されている
ディスク領域不足により Pod が強制終了(evicted)されている
ノードのメモリ不足により Pod が強制終了(evicted)されている
ディスクインデックス不足により Pod が強制終了(evicted)されている
Pod 内のサンドボックス化コンテナの起動に失敗している
Pod が Terminating 状態のままになっている
Pod 内のコンテナでメモリ不足(OOM)エラーが発生している
Pod 内のコンテナが予期せず終了している
Pod 内のコンテナが CrashLoopBackOff 状態のままになっている
Pod 内のコンテナが準備完了(Ready)になっていない
Pod がコンテナイメージのプルに失敗している
Pod がコンテナイメージのプル中にタイムアウトしている
AI アシスト型診断Pod のステータスが異常である
Pod でメモリ不足(OOM)エラーが発生している
Pod 内のコンテナが予期せず終了している
ConfigMap または Secret の構成が無効である
Pod がヘルスチェックに失敗している
永続ボリューム要求(PVC)の構成が無効である
コンテナイメージのプル時にエラーが発生している

診断項目のカテゴリ

Pod 診断では、以下の 5 カテゴリのコンポーネントをチェックします:

カテゴリチェック対象
PodPod ステータス、イメージのプル、ネットワーク接続
Nodeノードステータス、ネットワークステータス、カーネルログ、カーネルプロセス、サービス可用性
NodeComponentネットワーク(CNI)およびストレージ(CSI)など、主要なノードコンポーネントのステータス
ClusterComponentAPI サーバーの可用性、DNS サービス、NAT ゲートウェイのステータス
ECSControllerManagerECS インスタンスのステータス、ネットワーク接続、オペレーティングシステム、ディスク I/O

Pod

診断項目チェック対象ソリューション
コンテナの再起動回数Pod 内のコンテナが再起動した回数Pod のステータスおよびログを確認してください。詳細については、「Pod のトラブルシューティング」をご参照ください。
コンテナイメージのダウンロード失敗同一ノード上の他の Pod でもイメージのプルに失敗しているかPod のステータスおよびログを確認してください。詳細については、「Pod のトラブルシューティング」をご参照ください。
イメージプル用の Secret の有効性イメージプル用の Secret が有効かどうかPod のステータスおよびログを確認してください。詳細については、「Pod のトラブルシューティング」をご参照ください。
Pod と CoreDNS Pod 間の接続性Pod が CoreDNS Pod に到達できるかPod と CoreDNS Pod 間のネットワーク接続性を確認してください。
Pod と CoreDNS サービス間の接続性Pod が CoreDNS サービスに到達できるかPod と CoreDNS サービス間のネットワーク接続性を確認してください。
Pod とホストネットワークの DNS サーバ間の接続性Pod がホストネットワークの DNS サーバに到達できるかPod とホストネットワークの DNS サーバ間のネットワーク接続性を確認してください。
コンテナプロセスの D ステートコンテナプロセスが D ステート(割り込み不能スリープ)で停止していないかD ステートのプロセスは通常、ディスク I/O を待っています。ECS インスタンスを再起動してください。問題が継続する場合は、チケットを送信してください。
Pod の初期化Pod が初期化済みかどうかPod のステータスおよびログを確認してください。詳細については、「Pod のトラブルシューティング」をご参照ください。
Pod のスケジューリングPod がスケジュール済みかどうかPod のステータスおよびログを確認してください。詳細については、「Pod のトラブルシューティング」をご参照ください。

Node

上記のソリューションを適用しても問題が解消しない場合は、ノードのログを収集し、チケットを送信してください。

診断項目チェック対象ソリューション
Kubernetes API サーバーへの接続性ノードがクラスターの API サーバーに接続できるかクラスターの構成を確認してください。ACK クラスターのトラブルシューティング を参照してください。
AUFS マウントのハングAUFS マウントのハングが発生しているかチケットを送信してください。
BufferIOError エラーノードのカーネルに BufferIOError エラーが表示されているかチケットを送信してください。
cgroup のリークノード上で cgroup のリークが発生しているかcgroup のリークは、モニタリングデータの収集を妨害したり、コンテナの起動失敗を引き起こす可能性があります。ノードにログインし、cgroup ディレクトリを削除してください。
異常な chronyd プロセスchronyd プロセスが正常に実行されているか異常な chronyd プロセスは、システム時計の同期に影響を与えます。systemctl restart chronyd コマンドを実行してプロセスを再起動してください。
containerd によるイメージのプルcontainerd ランタイムがイメージをプルできるかノードのネットワーク設定およびイメージの構成を確認してください。
containerd のステータスcontainerd が実行中かどうかチケットを送信してください。
CoreDNS Pod の可用性ノードが CoreDNS Pod の IP アドレスにアクセスできるかCoreDNS Pod 間で DNS クエリの負荷が均等に分散されない場合はどうすればよいですか?」をご参照ください。
イメージのステータスイメージが破損していないかチケットを送信してください。
イメージの overlay2 ステータスイメージの overlay2 ファイルシステムが破損していないかチケットを送信してください。
システム時刻システム時刻が正しいか対処は不要です。
Docker コンテナの起動Docker コンテナの起動に失敗しているかチケットを送信してください。
Docker イメージのプルノードが Docker イメージをプルできるかノードのネットワーク設定およびイメージの構成を確認してください。
Docker のステータスDocker が実行中かどうかチケットを送信してください。
dockerd の起動時間dockerd の起動時間対処は不要です。
Docker のハングエラーDocker のハングエラーが発生しているかsystemctl restart docker コマンドを実行して Docker を再起動してください。
ECS インスタンスの存在ECS インスタンスが存在するかECS インスタンスステータスを確認します。詳細については、「ノードおよびノードプールに関するよくある質問」をご参照ください。
ECS インスタンスのステータスECS インスタンスの現在のステータスECS インスタンスステータスを確認します。詳細については、「ノードおよびノードプールに関するよくある質問」をご参照ください。
Ext4FsError エラーノードのカーネルに Ext4FsError エラーが表示されているかチケットを送信してください。
ノードファイルシステムの読み取り専用化ノードのファイルシステムが読み取り専用モードになっているか読み取り専用のファイルシステムは、通常ディスク障害を示しており、書き込みをブロックします。fsck コマンドを実行してファイルシステムを修復し、その後ノードを再起動してください。
ハードウェア時刻ハードウェア時刻とシステム時刻が同期しているか2 分を超える差異があると、コンポーネントエラーを引き起こす可能性があります。hwclock --systohc コマンドを実行して、システム時刻をハードウェア時計に同期してください。
DNS 解決ノード上でドメイン名を解決できるか詳細については、「DNS のトラブルシューティング」をご参照ください。
カーネル Oops エラーノードのカーネルにカーネル Oops エラーが存在するかチケットを送信してください。
カーネルバージョンカーネルバージョンが古いかノードとノードプールに関するよくある質問古いカーネルバージョンは、システム障害を引き起こす可能性があります。ノードのカーネルを更新してください。詳細については、「」をご参照ください。
DNS の可用性ノードが DNS 用の kube-dns サービスのクラスター IP にアクセスできるかCoreDNS Pod のステータスとログを確認します。詳細については、「DNS トラブルシューティング」をご参照ください。
kubelet のステータスkubelet が実行中かどうかkubelet ログを確認します。「ACK クラスターのトラブルシューティング」を参照してください。
kubelet の起動時間kubelet の起動時間対処は不要です。
CPU 使用率CPU 使用率が過剰に高いか対処は不要です。
メモリ使用率メモリ使用率が過剰に高いか対処は不要です。
メモリの断片化ノード上にメモリフラグメントが存在するかノードにログインし、echo 3 > /proc/sys/vm/drop_caches コマンドを実行してキャッシュをクリアしてください。
スワップメモリスワップメモリが有効になっているかスワップメモリは無効にする必要があります。ノードにログインし、スワップを無効にしてください。
VirtIO ドライバーのロードネットワークデバイス上で VirtIO ドライバーがロードされているかネットワークデバイスにおける VirtIO ドライバーのエラーを確認してください。
CPU 使用率(週間)過去 1 週間で CPU 使用率が継続的に高いか多数の Pod がスケジュールされることによる高 CPU 使用率は、リソース競合を引き起こします。ノードの過負荷を回避するために、適切なリソース要求および制限を設定してください。
プライベートノード IP アドレスノードがプライベート IP アドレスを持っているかプライベート IP アドレスが欠落している場合は、ECS インスタンスをリリースせずにクラスターからノードを削除し、再度追加してください。詳細については、「ノードの削除」および「既存の ECS インスタンスの追加」をご参照ください。
メモリ使用率(週間)過去 1 週間でメモリ使用率が継続的に高いか多数の Pod がスケジュールされることによる高メモリ使用率は、OOM エラーおよびサービス中断を引き起こす可能性があります。適切なリソース要求および制限を設定してください。
ノードのステータスノードが Ready 状態かどうかノードを再起動します。詳細については、「ノードおよびノードプールに関するよくある質問」をご参照ください。
ノードのスケジューリング可能状態ノードがスケジューリング不可状態(unschedulable)になっていないかノードがコードンされている場合は、そのスケジューリング構成を確認してください。ノードのドレインとスケジューリングステータスをご参照ください。
OOM エラーノードで OOM エラーが発生しているかチケットを送信してください。
コンテナランタイムの整合性ノードのランタイムがクラスターのランタイムと一致しているか詳細については、「クラスターのコンテナランタイムを containerd から Docker に変更できますか。」をご参照ください。
OS バージョン(既知のバグ)OS バージョンに既知のバグまたは安定性に関する問題があるか既知の OS バグは、Docker や containerd の不具合を引き起こす可能性があります。OS バージョンを更新してください。
インターネットアクセスノードがインターネットにアクセスできるかクラスターで SNAT が有効になっているかどうかを確認します。詳細については、「既存の ACK クラスターがインターネットにアクセスできるようにする」をご参照ください。
RCUStallError エラーノードのカーネルに RCUStallError エラーが表示されているかチケットを送信してください。
OS バージョンノードで現在使用されている OS バージョン対処は不要です。
runc プロセスのリークrunc プロセスのリークが発生しているかrunc のリークは、ノードが定期的に NotReady 状態になる原因となる可能性があります。リークした runc プロセスを特定し、手動で終了してください。
SoftLockupError エラーノードのカーネルに SoftLockupError エラーが表示されているかチケットを送信してください。
systemd のハングsystemd のハングが発生しているかsystemctl daemon-reexec コマンドを実行して systemd を再起動してください。
systemd バージョン(既知のバグ)systemd バージョンに既知のバグがあるか古い systemd のバージョンでは、Docker および containerd の不具合が発生する可能性があります。systemd を更新してください。詳細については、「systemd」をご参照ください。
ハング状態のプロセスノード上にハング状態のプロセスが存在するかチケットを送信してください。
unregister_netdevice エラーノードのカーネルに unregister_netdevice エラーが表示されているかチケットを送信してください。

NodeComponent

診断項目チェック対象ソリューション
CNI コンポーネントのステータスコンテナネットワークインターフェース(CNI)プラグインが実行中かどうかネットワークコンポーネントのステータスを確認してください。詳細については、「ネットワーク管理に関するよくある質問」をご参照ください。
CSI コンポーネントのステータスコンテナストレージインターフェース(CSI)プラグインが実行中かどうかストレージ コンポーネントのステータスを確認します。詳細については、「CSI に関するよくある質問」をご参照ください。

ClusterComponent

診断項目チェック内容解決方法
aliyun-acr-credential-helper バージョンaliyun-acr-credential-helper のバージョンが古くなっていないかaliyun-acr-credential-helper を更新します。詳細については、「シークレットを使用せずに aliyun-acr-credential-helper でイメージをプルする」をご参照ください。
API サービスの可用性クラスターの API サービスが利用可能かどうかkubectl get apiservice を実行して可用性を確認します。利用できない場合は、kubectl describe apiservice を実行して詳細を表示し、原因を特定してください。
利用可能な Pod CIDR ブロック数利用可能な Pod CIDR ブロックの数が 5 未満かどうか(Flannel のみ)各ノードには 1 つの Pod CIDR ブロックが必要です。すべてのブロックが使用済みの場合、新しいノードをクラスターに参加させることができません。チケットを起票してください。
CoreDNS エンドポイントアクティブな CoreDNS エンドポイントの数CoreDNS Pod のステータスとログを確認します。詳細については、「DNS トラブルシューティング」をご参照ください。
CoreDNS クラスター IP アドレスCoreDNS Pod にクラスター IP アドレスが割り当てられているかどうかクラスター IP が割り当てられていない場合、DNS サービス中断が発生する可能性があります。CoreDNS Pod のステータスとログを確認します。詳細については、「DNS トラブルシューティング」をご参照ください。
NAT Gateway ステータスクラスターの NAT Gateway のステータスNAT Gateway コンソールにログインし、支払い遅延によりゲートウェイがロックされていないか確認します。
NAT Gateway の同時接続ドロップ率NAT Gateway 上の同時接続ドロップ率が高いかどうかNAT Gateway をアップグレードします。詳細については、「標準インターネット NAT Gateway を拡張インターネット NAT Gateway にアップグレードする際のよくある質問」をご参照ください。

ECSControllerManager

診断項目チェック対象ソリューション
ECS インスタンスのコンポーネントに対する支払い遅延支払い遅延によりディスクまたはネットワーク帯域幅が利用できないかアカウントにチャージしてください。
ECS インスタンスに対する支払い遅延従量課金 ECS インスタンスが支払い遅延により一時停止しているかアカウントにチャージし、その後インスタンスを再起動してください。
ECS インスタンスの NIC ステータスNIC が正常に機能しているかインスタンスを再起動してください。
ECS インスタンスの起動ステータスインスタンスが正常に起動できるかインスタンスが起動できない場合は、新しいインスタンスを作成してください。
ECS インスタンスのバックエンド管理システムバックエンド管理システムが正常に機能しているかインスタンスを再起動してください。
ECS インスタンスの CPU ステータス基盤レイヤーで CPU 競合またはバインド失敗が発生しているかCPU 競合は、インスタンスが CPU 時間を取得できなくなる原因となります。インスタンスを再起動してください。
ECS インスタンスの CPU におけるスプリットロックインスタンスの CPU でスプリットロックが発生しているか詳細については、「スプリットロックの検出および対処」をご参照ください。
DDoS 対策のステータスインスタンスのパブリック IP アドレスが DDoS 攻撃を受けているか追加の Anti-DDoS 対策を購入します。詳細については、「Alibaba Cloud Anti-DDoS ソリューションの比較」をご参照ください。
クラウドディスクの読み書き能力クラウドディスクの読み書き操作がスロットルされているかディスクの IOPS が最大値に達すると、スロットリングが発生します。ディスクのメトリックを確認してください。詳細については、「ブロックストレージパフォーマンス」をご参照ください。
クラウドディスクのロードインスタンス起動時にクラウドディスクをアタッチできるかディスクのアタッチに失敗した場合は、インスタンスを停止してから再起動してください。
ECS インスタンスの有効期限サブスクリプションが有効期限切れになっていないかインスタンスを更新します。詳細については、「サブスクリプションインスタンスを更新する」をご参照ください。
ECS インスタンスの OS クラッシュ過去 48 時間以内に OS クラッシュが発生したかどうか原因を特定するには、システムログを確認してください。詳細については、「システムログとスクリーンショットの表示」をご参照ください。
ECS インスタンスのホストステータスインスタンスをホストする物理サーバに障害が発生していないか物理サーバの障害は、インスタンスのパフォーマンス低下を引き起こす可能性があります。インスタンスを再起動してください。
ECS インスタンスのイメージロード初期化時にインスタンスがイメージをロードできるかイメージのロードに失敗した場合は、インスタンスを再起動してください。
システムディスクにおける I/O ハングインスタンスのシステムディスクで I/O ハングが発生しているかディスクメトリックを確認します。詳細については、「クラウドディスクのモニタリングデータを表示する」をご参照ください。Alibaba Cloud Linux 2 の場合は、詳細については、「ファイルシステムおよびブロックレイヤーの I/O ハングを検出する」をご参照ください。
ECS インスタンスの帯域幅制限合計帯域幅がインスタンスタイプの最大値に達していないか帯域幅がより高いインスタンスタイプにアップグレードしてください。詳細については、「インスタンス構成の変更の概要」をご参照ください。
ECS インスタンスのバースト帯域幅制限バースト帯域幅がインスタンスタイプの制限を超えているか帯域幅がより高いインスタンスタイプにアップグレードしてください。詳細については、「インスタンス構成の変更に関する概要」をご参照ください。
ECS インスタンスの NIC ロードNIC をロードできるかNIC のロードに失敗した場合、ネットワーク接続性に影響が出ます。インスタンスを再起動してください。
NIC セッションの確立NIC へのセッションを確立できるかセッションを確立できない、またはセッション制限に達した場合、ネットワーク接続性またはスループットに影響が出ます。インスタンスを再起動してください。
最近の主要な操作最近のインスタンス操作(起動、停止、サイズ変更)が成功したか操作が失敗した場合は、再度実行してください。
NIC のパケット損失NIC でインバウンドまたはアウトバウンドのパケット損失が発生しているかインスタンスを再起動してください。
ECS インスタンスのパフォーマンス低下ハードウェアまたはソフトウェアの問題により、インスタンスのパフォーマンスが一時的に低下していないか履歴イベントとシステムログを確認して、原因を特定します。詳細については、「履歴システムイベントを表示する」をご参照ください。
ECS インスタンスのパフォーマンス劣化CPU クレジットが不足しているため、インスタンスがベースラインパフォーマンスのみで動作しているかCPU クレジットをチャージするか、クレジット制限のないインスタンスタイプへアップグレードしてください。
ECS インスタンスのディスクサイズ変更ディスクをサイズ変更したが、ファイルシステムが更新されていないかディスク拡張後にファイルシステムをサイズ変更しなかった場合は、再度ディスクをサイズ変更してください。
ECS インスタンスのリソース可用性インスタンスに対して十分な物理 CPU およびメモリリソースが確保されているかリソースが不足している場合、インスタンスを起動できません。数分待ってから再度試行するか、別のリージョンでインスタンスを作成してください。
ECS インスタンスの OS ステータスOS でカーネルパニック、OOM エラー、または内部障害が発生していないかこれらの問題は、OS の誤った構成やユーザーが実行するプログラムによって引き起こされる可能性があります。インスタンスを再起動してください。
ECS インスタンスの仮想化ステータス基盤となる仮想化レイヤーに例外が発生していないか仮想化例外は、インスタンスのフリーズや予期しない再起動を引き起こす可能性があります。インスタンスを再起動してください。