すべてのプロダクト
Search
ドキュメントセンター

Container Service for Kubernetes:ノード診断

最終更新日:Apr 26, 2025

Container Intelligence Service は、一般的なノードの問題を診断するのに役立つノード診断機能を提供します。このトピックでは、ノード診断項目について説明し、これらの問題を解決するための提案を提供します。

Container Intelligence Service は、専門家の経験に基づいて診断システムを開発し、大量のデータに基づいて AI 支援診断モデルをトレーニングします。これは、問題の根本原因を特定するのに役立ちます。ノード診断は、次のコンポーネントで構成されています。

  • 診断項目: ノード、ノードコンポーネント、クラスタコンポーネント、Elastic Compute Service (ECS) コントローラーマネージャー、および GPU アクセラレーションノードを診断します。

  • 根本原因: 問題の根本原因を特定し、問題を解決するための提案を提供します。ノード診断機能は、クラスタとノードに関する情報を収集し、異常を特定し、詳細な診断を実行します。

重要

ノード診断機能を使用すると、ACK はクラスタ内の各ノードでデータ収集プログラムを実行し、診断結果を収集します。収集される情報は、システムバージョン、ワークロード、Docker、kubelet のステータス、およびシステムログの主要なエラー情報のみです。データ収集プログラムは、ビジネス情報や機密データを収集しません。

シナリオ

次の表は、ノード診断と AI 支援診断のシナリオを示しています。

カテゴリ

シナリオ

ノード診断

ノード NotReady:

  • ネットワークの準備ができていません。

  • プロセス ID (PID) のクォータが不足しています。

  • メモリが不足しています。

  • ディスク容量が不足しています。

  • ランタイム例外が発生します。

  • ハートビートが検出されません。

iノードの残りのクォータが不足しています。

PID のクォータが不足しています。

ノードの時刻が正しくありません。

ノードのファイルシステムが読み取り専用です。

ノードカーネルでデッドロックが発生します。

AI 支援診断

ノードのステータスが異常です。

ECS インスタンスのステータスが異常です。

ノードの kubelet でエラーが発生します。

ノードでランタイム例外が発生します。

ディスク容量が不足しています。

ノードの CPU 使用率が高いです。

手順

クラスタ診断機能は、クラスタとノードに関する情報を収集し、異常を特定し、詳細な診断を実行します。エキスパートモードと AI モードは、問題の根本原因を特定するのに役立ちます。診断結果は、異常の識別、データ収集、診断項目のチェック、および根本原因分析の手順を経て生成されます。

Node diagnostics

  • 異常の識別: ノードステータス、ポッドステータス、クラスタイベントストリームなどの基本データを収集し、収集されたデータに基づいて異常を分析します。

  • データ収集: 異常の識別の結果に基づいて、コンテキスト関連のデータを収集および診断します。たとえば、ACK は Kubernetes のノード情報、ECS 情報、Docker プロセスのステータス、および kubelet プロセスのステータスを収集します。

  • 診断項目のチェック: 収集されたデータに基づいて、主要なメトリックが正常かどうかを確認します。たとえば、ノード診断項目には、Docker プロセスのステータスと ECS ステータスが含まれます。ノード診断は複数のカテゴリに分類されます。ACK は、さまざまなカテゴリの診断項目をリストし、各診断項目の説明を提供します。

  • 根本原因分析: 収集されたデータと診断項目のチェック結果に基づいて、問題の根本原因を分析します。

診断結果

診断結果には、根本原因分析の結果と診断項目チェックの結果が含まれます。根本原因分析の結果には、検出された異常根本原因修正の提案が含まれます。診断項目チェックの結果には、各診断項目のチェック結果が含まれます。診断項目チェックは、根本原因分析では特定できない原因を特定するために使用されます。

説明

診断項目は、クラスタ構成によって異なる場合があります。診断ページの実際の診断項目が優先されます。

診断項目

カテゴリ

説明

ノード

ノードステータス、ネットワークステータス、カーネルログ、カーネルプロセス、サービスの可用性など、一般的なノードの問題を診断します。

NodeComponent

ネットワークコンポーネントやボリュームコンポーネントなど、主要なノードコンポーネントのステータスを診断します。

ClusterComponent

API サービスの可用性、DNS の可用性、NAT ゲートウェイのステータスなど、一般的なクラスタの問題を診断します。

ECSControllerManager

ECS インスタンスのステータス、ネットワーク接続、オペレーティングシステム、ディスク I/O など、一般的な ECS インスタンスの問題を診断します。

GPUNode

NVIDIA モジュールステータスやドライバー構成など、GPU アクセラレーションノードの問題を診断します。

ノード

次の表に記載されているソリューションを採用した後も次の問題が解決しない場合は、ノードログを収集してから、チケットを送信してください。

診断項目

説明

ソリューション

Kubernetes API サーバーへの接続エラー

ノードがクラスタの Kubernetes API サーバーに接続できるかどうかを確認します。

クラスタの構成を確認します。詳細については、「ACK クラスタのトラブルシューティング」をご参照ください。

AUFS マウントハング

AUFS マウントハングが発生するかどうかを確認します。

チケットを送信

BufferIOError エラー

ノードカーネルで BufferIOError エラーが発生するかどうかを確認します。

チケットを送信

Cgroup リーク

ノードで cgroup リークが発生するかどうかを確認します。

Cgroup リークは、モニタリングデータの収集を中断し、コンテナの起動エラーにつながる可能性があります。ノードにログインし、cgroup ディレクトリを削除します。

chronyd プロセスのステータス異常

ノードの chronyd プロセスが異常な状態にあるかどうかを確認します。ノードの chronyd プロセスが異常な状態にある場合、システムクロックの同期に影響を与える可能性があります。

ノードの chronyd プロセスが異常な状態にある場合、システムクロックの同期に影響を与える可能性があります。systemctl restart chronyd コマンドを実行して、chronyd プロセスを再起動します。

containerd によるイメージのプル

containerd ランタイムが想定どおりにイメージをプルできるかどうかを確認します。

ノードネットワークとイメージの構成を確認します。

containerd のステータス

containerd ランタイムのステータスを確認します。

チケットを送信

CoreDNS ポッドの可用性

ノードが CoreDNS ポッドの IP アドレスにアクセスできるかどうかを確認します。

ノードが CoreDNS ポッドの IP アドレスにアクセスできるかどうかを確認します。詳細については、「CoreDNS ポッド間で DNS クエリ負荷のバランスが取れていない場合の対処方法」をご参照ください。

イメージステータス

イメージが破損しているかどうかを確認します。

チケットを送信

イメージの Overlay2 ステータス

イメージの overlay2 ファイルシステムが破損しているかどうかを確認します。

イメージの overlay2 ファイルシステムが破損している場合。

システム時刻

システム時刻が正しいかどうかを確認します。

なし。

Docker コンテナの起動

Docker コンテナが起動に失敗するかどうかを確認します。

チケットを送信

Docker イメージのプル

ノードが Docker イメージを想定どおりにプルできるかどうかを確認します。

ノードネットワークとイメージの構成を確認します。

Docker ステータス

Docker のステータスを確認します。

チケットを送信

Docker の起動時間

Dockerd の起動時間を確認します。

なし。

Docker ハングエラー

ノードで Docker ハングエラーが発生するかどうかを確認します。

systemctl restart docker コマンドを実行して、Docker を再起動します。

ECS インスタンスの存在

ECS インスタンスが存在するかどうかを確認します。

ECS インスタンスのステータスを確認します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。

ECS インスタンス ステータス

ECS インスタンスのステータスを確認します。

ECS インスタンスのステータスを確認します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。

Ext4FsError エラー

ノード カーネルで Ext4FsError エラーが発生するかどうかを確認します。

チケットを送信する

読み取り専用ノードファイルシステム

ほとんどの場合、ディスク障害が原因でノードファイルシステムが読み取り専用になります。 読み取り専用ノードファイルシステムにデータを書き込むことはできず、ビジネスに影響を与える可能性があります。

fsck コマンドを使用してノードファイルシステムを修復し、ノードを再起動します。

ハードウェア時間

ハードウェア時間とシステム時間の整合性を確認します。ハードウェア時間とシステム時間の差が 2 分を超えると、コンポーネントエラーが発生する可能性があります。

hwclock --systohc コマンドを実行して、システム時間をハードウェア クロックに同期します。

DNS

ノードでドメイン名を解決できるかどうかを確認します。

ノードでドメイン名を解決できるかどうかを確認します。詳細については、「DNS のトラブルシューティング」をご参照ください。

カーネル oops エラー

ノード カーネルに oops エラーが存在するかどうかを確認します。

チケットを送信する

カーネルバージョン

カーネルバージョンが古くなっているかどうかを確認します。古いカーネルバージョンは、システム障害につながる可能性があります。

ノードカーネルを更新します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。

DNS 可用性

ノードが kube-dns サービスのクラスター IP アドレスにアクセスして、クラスターが提供する DNS サービスを使用できるかどうかを確認します。

CoreDNS ポッドのステータスとログを確認します。詳細については、「DNS トラブルシューティング」をご参照ください。

Kubelet ステータス

kubelet のステータスを確認します。

kubelet ログを確認します。詳細については、「ACK クラスタのトラブルシューティング」をご参照ください。

Kubelet の起動時間

kubelet の起動時間を確認します。

なし。

CPU 使用率

ノードの CPU 使用率が過度に高いかどうかを確認します。

なし。

メモリ使用率

ノードのメモリ使用率が過度に高いかどうかを確認します。

なし。

メモリ断片化

ノード上にメモリ フラグメントが存在するかどうかを確認します。

ノードにメモリ フラグメントが存在する場合は、ノードにログインして echo 3 > /proc/sys/vm/drop_caches を実行し、キャッシュを削除します。

スワップ メモリ

ノードでスワップメモリが有効になっているかどうかを確認します。

スワップ メモリを有効にすることができません。ノードにログオンし、スワップ メモリを無効にしてください。

ネットワーク デバイス ドライバーの読み込み

ネットワーク デバイス上の VirtIO ドライバーの読み込みを確認します。

ネットワーク デバイス上の VirtIO ドライバーの読み込み中にエラーが発生します。

ノードの CPU 使用率が過度に高い

過去 1 週間におけるノードの CPU 使用率を確認します。ノードの CPU 使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを奪い合います。これにより、CPU 使用率が上昇し、サービス中断が発生する可能性があります。

サービス中断を回避するには、リソースのリクエストと制限を適切な値に設定し、ノード上で過度に多数のポッドが実行されないようにします。

非公開ノード IP の存在

非公開ノード IP アドレスが存在するかどうかを確認します。

非公開ノード IP アドレスが存在しない場合は、ノードを削除し、クラスターに再度ノードを追加します。ノードを削除するときに ECS インスタンスを解放しないでください。クラスターからノードを削除する方法の詳細については、「ノードを削除する」をご参照ください。クラスターにノードを追加する方法の詳細については、「既存の ECS インスタンスを追加する」をご参照ください。

ノードのメモリ使用率が高すぎる

過去 1 週間のノードのメモリ使用率を確認します。ノードのメモリ使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを奪い合います。これにより、メモリ使用率が上昇し、メモリ不足 (OOM) エラーが発生し、サービス中断につながる可能性があります。

サービス中断を回避するには、リソースのリクエストと制限を適切な値に設定し、ノード上で過度に多数のポッドが実行されないようにします。

ノード ステータス

ノードが Ready 状態であるかどうかを確認します。

ノードを再起動します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。

ノードのスケジューリング可能性

ノードがスケジュール不可かどうかを確認します。

ノードがスケジューリング不可能な場合は、ノードのスケジューリング構成を確認します。詳細については、「ノードのドレインとスケジューリングステータス」をご参照ください。

OOM エラー

ノードで OOM エラーが発生するかどうかを確認します。

チケットを提出する

ランタイムチェック

ノードのランタイムがクラスターのランタイムと同じかどうかを確認します。

詳細については、「クラスターのコンテナーランタイムを containerd から Docker に変更できますか?」をご参照ください。

古い OS バージョン

ノードで使用されている OS バージョンに既知のバグがあるかどうか、およびノードで使用されている OS バージョンが古くなっており、安定性の問題があるかどうかを確認します。前述の問題により、Docker および containerd コンポーネントが誤動作する可能性があります。

OS バージョンを更新します。

インターネットアクセス

ノードがインターネットにアクセスできるかどうかを確認します。

クラスタで SNAT が有効になっているかどうかを確認します。詳細については、「既存の ACK クラスタがインターネットにアクセスできるようにする」をご参照ください。

RCUStallError エラー

ノード カーネルで RCUStallError エラーが発生するかどうかを確認します。

チケットを送信する

OS バージョン

ノードで使用されている OS バージョンを確認します。ノードで古い OS バージョンが使用されている場合、クラスターは正常に動作しない可能性があります。

なし。

Runc プロセスのリーク

ノードで runc プロセスのリークが発生した場合、ノードは定期的に NotReady 状態になる可能性があります。

runc プロセスのリークが発生した場合は、リークした runc プロセスを確認し、プロセスを手動で終了します。

SoftLockupError エラー

ノード カーネルで SoftLockupError エラーが発生するかどうかを確認します。

チケットを送信する

Systemd のハング

ノードで systemd のハングが発生するかどうかを確認します。

ノードで systemd のハングが発生した場合は、ノードにログインして systemctl daemon-reexec コマンドを実行し、systemd を再起動します。

古い systemd バージョン

ノードで使用されている systemd のバージョンに既知のバグがあるかどうかを確認します。古い systemd バージョンには安定性の問題があり、Docker および containerd コンポーネントが誤動作する可能性があります。

systemd のバージョンを更新します。詳細については、「systemd」をご参照ください。

ハング プロセス

ノード上にハングしているプロセスが存在するかどうかを確認します。

チケットを送信する

unregister_netdevice エラー

ノード カーネルで unregister_netdevice エラーが発生するかどうかを確認します。

チケットを送信する

NodeComponent

診断項目

説明

解決策

CNI コンポーネントステータス

Container Network Interface(CNI)プラグインが想定どおりに実行されているかどうかを確認します。

クラスタで使用されているネットワークコンポーネントのステータスを確認します。詳細については、「ネットワーク管理に関する FAQ」をご参照ください。

CSI コンポーネントステータス

Container Storage Interface(CSI)プラグインが想定どおりに実行されているかどうかを確認します。

クラスタで使用されているボリュームコンポーネントのステータスを確認します。詳細については、「CSI に関する FAQ」をご参照ください。

ClusterComponent

診断項目

説明

解決策

aliyun-acr-credential-helper のバージョン

クラスタで使用されている aliyun-acr-credential-helper のバージョンが古くなっているかどうかを確認します。

クラスタで使用されている aliyun-acr-credential-helper のバージョンが古くなっている場合は、aliyun-acr-credential-helper を更新します。詳細については、「aliyun-acr-credential-helper コンポーネントを使用して、シークレットを使用せずにイメージをプルする」をご参照ください。

API サービスの可用性

クラスタの API サービスが使用可能かどうかを確認します。

kubectl get apiservice コマンドを実行して、クラスタの API サービスの可用性を確認します。API サービスが使用できない場合は、kubectl describe apiservice コマンドを実行して、API サービスに関する情報を表示し、原因を特定します。

使用可能な Pod CIDR ブロックの不足

Flannel がインストールされているクラスタで使用可能な Pod CIDR ブロックの数が 5 未満かどうかを確認します。クラスタ内の各ノードは Pod CIDR ブロックに接続されています。すべての Pod CIDR ブロックが使用されている場合、クラスタに追加する新しいノードは期待どおりに動作しません。

チケットを送信する

CoreDNS エンドポイント

CoreDNS エンドポイントの数をチェックします。

CoreDNS Pod のステータスとログを確認します。詳細については、「DNS のトラブルシューティング」をご参照ください。

CoreDNS クラスタ IP アドレス

CoreDNS Pod にクラスタ IP アドレスが割り当てられているかどうかを確認します。CoreDNS Pod にクラスタ IP アドレスが割り当てられていない場合、サービス中断が発生する可能性があります。

CoreDNS Pod のステータスとログを確認します。詳細については、「DNS のトラブルシューティング」をご参照ください。

NAT ゲートウェイのステータス

クラスタで使用されている NAT ゲートウェイのステータスを確認します。

NAT ゲートウェイコンソール にログインして、支払い遅延のために NAT ゲートウェイがロックされているかどうかを確認します。

NAT ゲートウェイでの同時接続ドロップ率が過度に高い

NAT ゲートウェイで同時接続がドロップされる割合が高いかどうかを確認します。

割合が高い場合は、NAT ゲートウェイをスペックアップします。詳細については、「標準インターネット NAT ゲートウェイを拡張インターネット NAT ゲートウェイにアップグレードする方法に関するよくある質問」をご参照ください。

ECSControllerManager

診断項目

説明

解決策

ECS インスタンスコンポーネントの支払い遅延

アカウントの支払い遅延により、ECS インスタンスのディスクまたはネットワーク帯域幅が使用できないかどうかを確認します。

アカウントの支払い遅延により、ECS インスタンスのディスクまたはネットワーク帯域幅が使用できない場合は、アカウントの残高を補充してください。

ECS インスタンスの支払い遅延

従量課金制の ECS インスタンスが支払い遅延により一時停止されているかどうかを確認します。

従量課金制の ECS インスタンスが支払い遅延により一時停止されている場合は、最初にアカウントの残高を補充してから、インスタンスを再起動する必要があります。

ECS インスタンス NIC ステータス

ECS インスタンスの NIC が想定どおりに動作しているかどうかを確認します。

ECS インスタンスの NIC が想定どおりに動作していない場合は、インスタンスを再起動してください。

ECS インスタンスの起動ステータス

インスタンスで起動操作が正常に実行できるかどうかを確認します。

インスタンスで起動操作が正常に実行できない場合は、別のインスタンスを作成する必要があります。

ECS インスタンスバックエンド管理システムのステータス

ECS インスタンスのバックエンド管理システムが想定どおりに動作しているかどうかを確認します。

ECS インスタンスのバックエンド管理システムが想定どおりに動作していない場合は、インスタンスを再起動してください。

ECS インスタンス CPU のステータス

ECS インスタンスの基盤レイヤーで CPU 競合または CPU バインドエラーが発生するかどうかを確認します。

CPU 競合が存在する場合、インスタンスは CPU を取得できないか、他の問題が発生する可能性があります。インスタンスを再起動してください。

ECS インスタンスの CPU での分割ロック

ECS インスタンスの CPU で分割ロックが発生するかどうかを確認します。

ECS インスタンスの CPU で分割ロックが発生します。詳細については、「分割ロックの検出と処理」をご参照ください。

ECS インスタンスの DDoS 緩和のステータス

インスタンスのパブリック IP アドレスが DDoS 攻撃を受けているかどうかを確認します。

ECS インスタンスの IP アドレスが DDoS 攻撃を受けている場合は、他の Anti-DDoS サービスを購入してください。詳細については、「Alibaba Cloud Anti-DDoS ソリューションの比較」をご参照ください。

クラウドディスクの読み取り/書き込み機能の制限

クラウドディスクの読み取り/書き込み機能が制限されているかどうかを確認します。

ディスクの最大読み取り IOPS および書き込み IOPS に達した場合、ディスクの読み取り操作と書き込み操作は制限されます。ディスクメトリックの表示方法の詳細については、「ブロックストレージのパフォーマンス」をご参照ください。

ECS インスタンスディスクの読み込み

インスタンスの起動時にクラウドディスクを ECS インスタンスにアタッチできるかどうかを確認します。

クラウドディスクをインスタンスにアタッチできなかったためにインスタンスを起動できなかった場合は、インスタンスを停止してから再起動してください。

ECS インスタンスの有効期限

インスタンスのサブスクリプションの有効期限が切れているかどうかを確認します。

ECS インスタンスの有効期限が切れている場合は、インスタンスを更新してください。詳細については、「サブスクリプションインスタンスの更新」をご参照ください。

ECS インスタンス OS のクラッシュ

ECS インスタンスで OS クラッシュが発生するかどうかを確認します。

過去 48 時間以内に ECS インスタンスで OS クラッシュが発生した場合は、システムログをトラブルシューティングして原因を特定してください。詳細については、「システムログとスクリーンショットの表示」をご参照ください。

ECS インスタンスホストのステータス

ECS インスタンスがデプロイされている物理サーバーでエラーが発生するかどうかを確認します。

ECS インスタンスがデプロイされている物理サーバーでエラーが発生した場合、インスタンスは異常な状態になり、インスタンスのパフォーマンスが低下する可能性があります。インスタンスを再起動してください。

ECS インスタンスイメージの読み込み

システムがインスタンスを初期化するときに、ECS インスタンスがイメージを読み込めるかどうかを確認します。

システムとイメージに関連する問題により、ECS インスタンスはイメージを読み込めませんでした。インスタンスを再起動してください。

ECS インスタンスディスクの I/O ハング

ECS インスタンスのシステムディスクで I/O ハングが発生するかどうかを確認します。

ECS インスタンスのシステムディスクで I/O ハングが発生した場合は、ディスクメトリックを確認してください。詳細については、「クラウドディスクのモニタリングデータの表示」をご参照ください。Alibaba Cloud Linux 2 での I/O ハングのトラブルシューティング方法については、「ファイルシステムとブロックレイヤーの I/O ハングの検出」をご参照ください。

ECS インスタンスの帯域幅上限

ECS インスタンスの合計帯域幅が、インスタンスタイプで許可されている最大帯域幅に達しているかどうかを確認します。

ECS インスタンスの合計帯域幅が、インスタンスタイプで許可されている最大帯域幅に達している場合は、より高い帯域幅機能を提供するインスタンスタイプにインスタンスをアップグレードしてください。詳細については、「インスタンス構成の変更の概要」をご参照ください。

ECS インスタンスのバースト帯域幅の上限

インスタンスのバースト帯域幅が、インスタンスタイプで許可されているバースト帯域幅の上限を超えているかどうかを確認します。

インスタンスのバースト帯域幅が、インスタンスタイプで許可されているバースト帯域幅の上限を超えている場合は、より高い帯域幅を提供するインスタンスタイプにインスタンスをアップグレードしてください。詳細については、「インスタンス構成の変更の概要」をご参照ください。

ECS インスタンス NIC の読み込み

ECS インスタンスの NIC を読み込めるかどうかを確認します。

NIC を読み込めない場合、インスタンスのネットワーク接続に影響します。インスタンスを再起動してください。

ECS インスタンスでの NIC セッションの確立

ECS インスタンスの NIC へのセッションを確立できるかどうかを確認します。

NIC へのセッションを確立できない場合、または NIC でサポートされているセッションの最大数に達した場合、インスタンスのネットワーク接続またはスループットに影響します。インスタンスを再起動してください。

ECS インスタンスでの主要操作

最近インスタンスで実行した操作が成功したかどうかを確認します。これらの操作には、インスタンスの起動と停止、およびインスタンスの構成のアップグレードが含まれます。

最近インスタンスで実行した操作が失敗した場合は、操作を再実行してください。

ECS インスタンス NIC でのパケット損失

ECS インスタンスの NIC で受信または送信パケット損失が発生するかどうかを確認します。

ECS インスタンスの NIC で受信または送信パケット損失が発生した場合は、インスタンスを再起動してください。

ECS インスタンスのパフォーマンス低下

ソフトウェアまたはハードウェアの問題により、インスタンスのパフォーマンスが一時的に低下するかどうかを確認します。

インスタンスのパフォーマンスが低下した場合、パフォーマンスが低下した時間が表示されます。インスタンスの過去のイベントまたはシステムログを表示して、パフォーマンス低下の原因を特定できます。詳細については、「過去のシステムイベントの表示」をご参照ください。

低下した ECS インスタンスのパフォーマンス

ECS インスタンスのパフォーマンスが低下しているかどうかを確認します。

使用可能な CPU クレジットが不足しているため、ECS インスタンスはベースラインパフォーマンスしか提供できません。

ECS インスタンスディスクのサイズ変更

ECS インスタンスのディスクのサイズが変更されているかどうかを確認します。

ディスクのサイズ変更後、オペレーティングシステムはファイルシステムのサイズを変更できません。サイズ変更後にディスクを使用できない場合は、ディスクのサイズを再度変更してください。

ECS インスタンスリソースアプリケーション

ECS インスタンスに必要な CPU リソースやメモリリソースなどの物理リソースが十分にあるかどうかを確認します。

ECS インスタンスに必要な物理リソースが不足している場合、インスタンスを起動できません。数分待ってから、インスタンスを再起動してください。別のリージョンに ECS インスタンスを作成することもできます。

ECS インスタンス OS ステータス

ECS インスタンスの OS でカーネルパニック、OOM エラー、または内部エラーが発生するかどうかを確認します。

これらのエラーは、インスタンスの構成が不適切であるか、インスタンスの OS 内のユーザープログラムが原因である可能性があります。インスタンスを再起動してください。

ECS インスタンスの仮想化ステータス

インスタンスの基盤となる仮想化レイヤーのコアサービスに例外が存在するかどうかを確認します。

例外が存在する場合、インスタンスが応答しないか、予期せず一時停止される可能性があります。インスタンスを再起動してください。

GPUNode

診断項目

説明

解決策

コンテナーランタイム

GPU アクセラレーションノードで使用されているコンテナーランタイムが有効かどうかを確認します。

ノード上の Docker または containerd ランタイムのステータスを確認します。ACK は、Docker または containerd ランタイムを使用する GPU アクセラレーションノードのみをサポートしています。

NVIDIA-Container-Runtime バージョン

GPU アクセラレーションノードで使用されている NVIDIA-Container-Runtime のバージョンを確認します。

NVIDIA-Container-Runtime がインストールされていないか、インストールされている NVIDIA-Container-Runtime のバージョンに問題があります。次の手順を実行します。

  1. GPU アクセラレーションノードで使用されている NVIDIA-Container-Runtime のバージョンが、クラスターの Kubernetes バージョンと一致するかどうかを確認します。詳細については、「Kubernetes バージョンのリリースノート」をご参照ください。

  2. NVIDIA-Container-Runtime のバージョンがクラスターの Kubernetes バージョンと一致する場合は、[チケットの送信] します。診断データの収集方法の詳細については、「GPU アクセラレーションノードから診断データを収集する」をご参照ください。

cGPU モジュールステータス

GPU アクセラレーションノードの cGPU モジュールが想定どおりに実行されているかどうかを確認します。

ノードで GPU 共有が有効になっているかどうかを確認します。次の手順を実行します。

  1. cGPU コンポーネントがインストールされているかどうかを確認します。詳細については、「GPU 共有コンポーネントをインストールする」をご参照ください。

  2. cGPU コンポーネントがインストールされている場合は、GPU アクセラレーションノードに関する診断データを収集し、[チケットの送信] します。診断データの収集方法の詳細については、「GPU アクセラレーションノードから診断データを収集する」をご参照ください。

コンテナーランタイム構成

GPU アクセラレーションノードで使用されているコンテナーランタイムが正しく構成されているかどうかを確認します。

GPU アクセラレーションノードで使用されているコンテナーランタイムが正しく構成されていません。コンテナーランタイム構成で nvidia-container-runtime フィールドが指定されているかどうかを確認します。

  • Docker ランタイムの場合は、/etc/docker/daemon.json ファイルを確認します。

  • containerd ランタイムの場合は、/etc/containerd/config.toml ファイルを確認します。

NVIDIA-Container-Runtime ステータス

GPU アクセラレーションノードで NVIDIA-Container-Runtime が想定どおりに実行されているかどうかを確認します。

NVIDIA-Container-Runtime でエラーが発生しています。GPU アクセラレーションノードに関する診断データを収集し、[チケットの送信] します。診断データの収集方法の詳細については、「GPU アクセラレーションノードから診断データを収集する」をご参照ください。

NVIDIA モジュールステータス

GPU アクセラレーションノードで NVIDIA モジュールが想定どおりに実行されているかどうかを確認します。

GPU アクセラレーションノードの NVIDIA モジュールでエラーが発生しています。次の手順を実行します。

  1. GPU アクセラレーションノードを診断します。詳細については、「GPU に関するよくある質問」をご参照ください。

  2. GPU アクセラレーションノードに関する診断データを収集し、[チケットの送信] します。診断データの収集方法の詳細については、「GPU アクセラレーションノードから診断データを収集する」をご参照ください。