Container Intelligence Service は、一般的なノードの問題を診断するのに役立つノード診断機能を提供します。このトピックでは、ノード診断項目について説明し、これらの問題を解決するための提案を提供します。
Container Intelligence Service は、専門家の経験に基づいて診断システムを開発し、大量のデータに基づいて AI 支援診断モデルをトレーニングします。これは、問題の根本原因を特定するのに役立ちます。ノード診断は、次のコンポーネントで構成されています。
診断項目: ノード、ノードコンポーネント、クラスタコンポーネント、Elastic Compute Service (ECS) コントローラーマネージャー、および GPU アクセラレーションノードを診断します。
根本原因: 問題の根本原因を特定し、問題を解決するための提案を提供します。ノード診断機能は、クラスタとノードに関する情報を収集し、異常を特定し、詳細な診断を実行します。
ノード診断機能を使用すると、ACK はクラスタ内の各ノードでデータ収集プログラムを実行し、診断結果を収集します。収集される情報は、システムバージョン、ワークロード、Docker、kubelet のステータス、およびシステムログの主要なエラー情報のみです。データ収集プログラムは、ビジネス情報や機密データを収集しません。
シナリオ
次の表は、ノード診断と AI 支援診断のシナリオを示しています。
カテゴリ | シナリオ |
ノード診断 | ノード NotReady:
|
iノードの残りのクォータが不足しています。 | |
PID のクォータが不足しています。 | |
ノードの時刻が正しくありません。 | |
ノードのファイルシステムが読み取り専用です。 | |
ノードカーネルでデッドロックが発生します。 | |
AI 支援診断 | ノードのステータスが異常です。 |
ECS インスタンスのステータスが異常です。 | |
ノードの kubelet でエラーが発生します。 | |
ノードでランタイム例外が発生します。 | |
ディスク容量が不足しています。 | |
ノードの CPU 使用率が高いです。 |
手順
クラスタ診断機能は、クラスタとノードに関する情報を収集し、異常を特定し、詳細な診断を実行します。エキスパートモードと AI モードは、問題の根本原因を特定するのに役立ちます。診断結果は、異常の識別、データ収集、診断項目のチェック、および根本原因分析の手順を経て生成されます。

異常の識別: ノードステータス、ポッドステータス、クラスタイベントストリームなどの基本データを収集し、収集されたデータに基づいて異常を分析します。
データ収集: 異常の識別の結果に基づいて、コンテキスト関連のデータを収集および診断します。たとえば、ACK は Kubernetes のノード情報、ECS 情報、Docker プロセスのステータス、および kubelet プロセスのステータスを収集します。
診断項目のチェック: 収集されたデータに基づいて、主要なメトリックが正常かどうかを確認します。たとえば、ノード診断項目には、Docker プロセスのステータスと ECS ステータスが含まれます。ノード診断は複数のカテゴリに分類されます。ACK は、さまざまなカテゴリの診断項目をリストし、各診断項目の説明を提供します。
根本原因分析: 収集されたデータと診断項目のチェック結果に基づいて、問題の根本原因を分析します。
診断結果
診断結果には、根本原因分析の結果と診断項目チェックの結果が含まれます。根本原因分析の結果には、検出された異常、根本原因、修正の提案が含まれます。診断項目チェックの結果には、各診断項目のチェック結果が含まれます。診断項目チェックは、根本原因分析では特定できない原因を特定するために使用されます。
診断項目は、クラスタ構成によって異なる場合があります。診断ページの実際の診断項目が優先されます。
診断項目
カテゴリ | 説明 |
ノードステータス、ネットワークステータス、カーネルログ、カーネルプロセス、サービスの可用性など、一般的なノードの問題を診断します。 | |
ネットワークコンポーネントやボリュームコンポーネントなど、主要なノードコンポーネントのステータスを診断します。 | |
API サービスの可用性、DNS の可用性、NAT ゲートウェイのステータスなど、一般的なクラスタの問題を診断します。 | |
ECS インスタンスのステータス、ネットワーク接続、オペレーティングシステム、ディスク I/O など、一般的な ECS インスタンスの問題を診断します。 | |
NVIDIA モジュールステータスやドライバー構成など、GPU アクセラレーションノードの問題を診断します。 |
ノード
次の表に記載されているソリューションを採用した後も次の問題が解決しない場合は、ノードログを収集してから、チケットを送信してください。
診断項目 | 説明 | ソリューション |
Kubernetes API サーバーへの接続エラー | ノードがクラスタの Kubernetes API サーバーに接続できるかどうかを確認します。 | クラスタの構成を確認します。詳細については、「ACK クラスタのトラブルシューティング」をご参照ください。 |
AUFS マウントハング | AUFS マウントハングが発生するかどうかを確認します。 | |
BufferIOError エラー | ノードカーネルで BufferIOError エラーが発生するかどうかを確認します。 | |
Cgroup リーク | ノードで cgroup リークが発生するかどうかを確認します。 | Cgroup リークは、モニタリングデータの収集を中断し、コンテナの起動エラーにつながる可能性があります。ノードにログインし、cgroup ディレクトリを削除します。 |
chronyd プロセスのステータス異常 | ノードの chronyd プロセスが異常な状態にあるかどうかを確認します。ノードの chronyd プロセスが異常な状態にある場合、システムクロックの同期に影響を与える可能性があります。 | ノードの chronyd プロセスが異常な状態にある場合、システムクロックの同期に影響を与える可能性があります。 |
containerd によるイメージのプル | containerd ランタイムが想定どおりにイメージをプルできるかどうかを確認します。 | ノードネットワークとイメージの構成を確認します。 |
containerd のステータス | containerd ランタイムのステータスを確認します。 | |
CoreDNS ポッドの可用性 | ノードが CoreDNS ポッドの IP アドレスにアクセスできるかどうかを確認します。 | ノードが CoreDNS ポッドの IP アドレスにアクセスできるかどうかを確認します。詳細については、「CoreDNS ポッド間で DNS クエリ負荷のバランスが取れていない場合の対処方法」をご参照ください。 |
イメージステータス | イメージが破損しているかどうかを確認します。 | |
イメージの Overlay2 ステータス | イメージの overlay2 ファイルシステムが破損しているかどうかを確認します。 | イメージの overlay2 ファイルシステムが破損している場合。 |
システム時刻 | システム時刻が正しいかどうかを確認します。 | なし。 |
Docker コンテナの起動 | Docker コンテナが起動に失敗するかどうかを確認します。 | |
Docker イメージのプル | ノードが Docker イメージを想定どおりにプルできるかどうかを確認します。 | ノードネットワークとイメージの構成を確認します。 |
Docker ステータス | Docker のステータスを確認します。 | |
Docker の起動時間 | Dockerd の起動時間を確認します。 | なし。 |
Docker ハングエラー | ノードで Docker ハングエラーが発生するかどうかを確認します。 |
|
ECS インスタンスの存在 | ECS インスタンスが存在するかどうかを確認します。 | ECS インスタンスのステータスを確認します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。 |
ECS インスタンス ステータス | ECS インスタンスのステータスを確認します。 | ECS インスタンスのステータスを確認します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。 |
Ext4FsError エラー | ノード カーネルで Ext4FsError エラーが発生するかどうかを確認します。 | |
読み取り専用ノードファイルシステム | ほとんどの場合、ディスク障害が原因でノードファイルシステムが読み取り専用になります。 読み取り専用ノードファイルシステムにデータを書き込むことはできず、ビジネスに影響を与える可能性があります。 | fsck コマンドを使用してノードファイルシステムを修復し、ノードを再起動します。 |
ハードウェア時間 | ハードウェア時間とシステム時間の整合性を確認します。ハードウェア時間とシステム時間の差が 2 分を超えると、コンポーネントエラーが発生する可能性があります。 |
|
DNS | ノードでドメイン名を解決できるかどうかを確認します。 | ノードでドメイン名を解決できるかどうかを確認します。詳細については、「DNS のトラブルシューティング」をご参照ください。 |
カーネル oops エラー | ノード カーネルに oops エラーが存在するかどうかを確認します。 | |
カーネルバージョン | カーネルバージョンが古くなっているかどうかを確認します。古いカーネルバージョンは、システム障害につながる可能性があります。 | ノードカーネルを更新します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。 |
DNS 可用性 | ノードが kube-dns サービスのクラスター IP アドレスにアクセスして、クラスターが提供する DNS サービスを使用できるかどうかを確認します。 | CoreDNS ポッドのステータスとログを確認します。詳細については、「DNS トラブルシューティング」をご参照ください。 |
Kubelet ステータス | kubelet のステータスを確認します。 | kubelet ログを確認します。詳細については、「ACK クラスタのトラブルシューティング」をご参照ください。 |
Kubelet の起動時間 | kubelet の起動時間を確認します。 | なし。 |
CPU 使用率 | ノードの CPU 使用率が過度に高いかどうかを確認します。 | なし。 |
メモリ使用率 | ノードのメモリ使用率が過度に高いかどうかを確認します。 | なし。 |
メモリ断片化 | ノード上にメモリ フラグメントが存在するかどうかを確認します。 | ノードにメモリ フラグメントが存在する場合は、ノードにログインして |
スワップ メモリ | ノードでスワップメモリが有効になっているかどうかを確認します。 | スワップ メモリを有効にすることができません。ノードにログオンし、スワップ メモリを無効にしてください。 |
ネットワーク デバイス ドライバーの読み込み | ネットワーク デバイス上の VirtIO ドライバーの読み込みを確認します。 | ネットワーク デバイス上の VirtIO ドライバーの読み込み中にエラーが発生します。 |
ノードの CPU 使用率が過度に高い | 過去 1 週間におけるノードの CPU 使用率を確認します。ノードの CPU 使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを奪い合います。これにより、CPU 使用率が上昇し、サービス中断が発生する可能性があります。 | サービス中断を回避するには、リソースのリクエストと制限を適切な値に設定し、ノード上で過度に多数のポッドが実行されないようにします。 |
非公開ノード IP の存在 | 非公開ノード IP アドレスが存在するかどうかを確認します。 | 非公開ノード IP アドレスが存在しない場合は、ノードを削除し、クラスターに再度ノードを追加します。ノードを削除するときに ECS インスタンスを解放しないでください。クラスターからノードを削除する方法の詳細については、「ノードを削除する」をご参照ください。クラスターにノードを追加する方法の詳細については、「既存の ECS インスタンスを追加する」をご参照ください。 |
ノードのメモリ使用率が高すぎる | 過去 1 週間のノードのメモリ使用率を確認します。ノードのメモリ使用率が高く、多数のポッドがノードにスケジュールされている場合、ポッドはリソースを奪い合います。これにより、メモリ使用率が上昇し、メモリ不足 (OOM) エラーが発生し、サービス中断につながる可能性があります。 | サービス中断を回避するには、リソースのリクエストと制限を適切な値に設定し、ノード上で過度に多数のポッドが実行されないようにします。 |
ノード ステータス | ノードが Ready 状態であるかどうかを確認します。 | ノードを再起動します。詳細については、「ノードとノードプールに関する FAQ」をご参照ください。 |
ノードのスケジューリング可能性 | ノードがスケジュール不可かどうかを確認します。 | ノードがスケジューリング不可能な場合は、ノードのスケジューリング構成を確認します。詳細については、「ノードのドレインとスケジューリングステータス」をご参照ください。 |
OOM エラー | ノードで OOM エラーが発生するかどうかを確認します。 | |
ランタイムチェック | ノードのランタイムがクラスターのランタイムと同じかどうかを確認します。 | 詳細については、「クラスターのコンテナーランタイムを containerd から Docker に変更できますか?」をご参照ください。 |
古い OS バージョン | ノードで使用されている OS バージョンに既知のバグがあるかどうか、およびノードで使用されている OS バージョンが古くなっており、安定性の問題があるかどうかを確認します。前述の問題により、Docker および containerd コンポーネントが誤動作する可能性があります。 | OS バージョンを更新します。 |
インターネットアクセス | ノードがインターネットにアクセスできるかどうかを確認します。 | クラスタで SNAT が有効になっているかどうかを確認します。詳細については、「既存の ACK クラスタがインターネットにアクセスできるようにする」をご参照ください。 |
RCUStallError エラー | ノード カーネルで RCUStallError エラーが発生するかどうかを確認します。 | |
OS バージョン | ノードで使用されている OS バージョンを確認します。ノードで古い OS バージョンが使用されている場合、クラスターは正常に動作しない可能性があります。 | なし。 |
Runc プロセスのリーク | ノードで runc プロセスのリークが発生した場合、ノードは定期的に NotReady 状態になる可能性があります。 | runc プロセスのリークが発生した場合は、リークした runc プロセスを確認し、プロセスを手動で終了します。 |
SoftLockupError エラー | ノード カーネルで SoftLockupError エラーが発生するかどうかを確認します。 | |
Systemd のハング | ノードで systemd のハングが発生するかどうかを確認します。 | ノードで systemd のハングが発生した場合は、ノードにログインして |
古い systemd バージョン | ノードで使用されている systemd のバージョンに既知のバグがあるかどうかを確認します。古い systemd バージョンには安定性の問題があり、Docker および containerd コンポーネントが誤動作する可能性があります。 | systemd のバージョンを更新します。詳細については、「systemd」をご参照ください。 |
ハング プロセス | ノード上にハングしているプロセスが存在するかどうかを確認します。 | |
unregister_netdevice エラー | ノード カーネルで unregister_netdevice エラーが発生するかどうかを確認します。 |
NodeComponent
診断項目 | 説明 | 解決策 |
CNI コンポーネントステータス | Container Network Interface(CNI)プラグインが想定どおりに実行されているかどうかを確認します。 | クラスタで使用されているネットワークコンポーネントのステータスを確認します。詳細については、「ネットワーク管理に関する FAQ」をご参照ください。 |
CSI コンポーネントステータス | Container Storage Interface(CSI)プラグインが想定どおりに実行されているかどうかを確認します。 | クラスタで使用されているボリュームコンポーネントのステータスを確認します。詳細については、「CSI に関する FAQ」をご参照ください。 |
ClusterComponent
診断項目 | 説明 | 解決策 |
aliyun-acr-credential-helper のバージョン | クラスタで使用されている aliyun-acr-credential-helper のバージョンが古くなっているかどうかを確認します。 | クラスタで使用されている aliyun-acr-credential-helper のバージョンが古くなっている場合は、aliyun-acr-credential-helper を更新します。詳細については、「aliyun-acr-credential-helper コンポーネントを使用して、シークレットを使用せずにイメージをプルする」をご参照ください。 |
API サービスの可用性 | クラスタの API サービスが使用可能かどうかを確認します。 |
|
使用可能な Pod CIDR ブロックの不足 | Flannel がインストールされているクラスタで使用可能な Pod CIDR ブロックの数が 5 未満かどうかを確認します。クラスタ内の各ノードは Pod CIDR ブロックに接続されています。すべての Pod CIDR ブロックが使用されている場合、クラスタに追加する新しいノードは期待どおりに動作しません。 | |
CoreDNS エンドポイント | CoreDNS エンドポイントの数をチェックします。 | CoreDNS Pod のステータスとログを確認します。詳細については、「DNS のトラブルシューティング」をご参照ください。 |
CoreDNS クラスタ IP アドレス | CoreDNS Pod にクラスタ IP アドレスが割り当てられているかどうかを確認します。CoreDNS Pod にクラスタ IP アドレスが割り当てられていない場合、サービス中断が発生する可能性があります。 | CoreDNS Pod のステータスとログを確認します。詳細については、「DNS のトラブルシューティング」をご参照ください。 |
NAT ゲートウェイのステータス | クラスタで使用されている NAT ゲートウェイのステータスを確認します。 | NAT ゲートウェイコンソール にログインして、支払い遅延のために NAT ゲートウェイがロックされているかどうかを確認します。 |
NAT ゲートウェイでの同時接続ドロップ率が過度に高い | NAT ゲートウェイで同時接続がドロップされる割合が高いかどうかを確認します。 | 割合が高い場合は、NAT ゲートウェイをスペックアップします。詳細については、「標準インターネット NAT ゲートウェイを拡張インターネット NAT ゲートウェイにアップグレードする方法に関するよくある質問」をご参照ください。 |
ECSControllerManager
診断項目 | 説明 | 解決策 |
ECS インスタンスコンポーネントの支払い遅延 | アカウントの支払い遅延により、ECS インスタンスのディスクまたはネットワーク帯域幅が使用できないかどうかを確認します。 | アカウントの支払い遅延により、ECS インスタンスのディスクまたはネットワーク帯域幅が使用できない場合は、アカウントの残高を補充してください。 |
ECS インスタンスの支払い遅延 | 従量課金制の ECS インスタンスが支払い遅延により一時停止されているかどうかを確認します。 | 従量課金制の ECS インスタンスが支払い遅延により一時停止されている場合は、最初にアカウントの残高を補充してから、インスタンスを再起動する必要があります。 |
ECS インスタンス NIC ステータス | ECS インスタンスの NIC が想定どおりに動作しているかどうかを確認します。 | ECS インスタンスの NIC が想定どおりに動作していない場合は、インスタンスを再起動してください。 |
ECS インスタンスの起動ステータス | インスタンスで起動操作が正常に実行できるかどうかを確認します。 | インスタンスで起動操作が正常に実行できない場合は、別のインスタンスを作成する必要があります。 |
ECS インスタンスバックエンド管理システムのステータス | ECS インスタンスのバックエンド管理システムが想定どおりに動作しているかどうかを確認します。 | ECS インスタンスのバックエンド管理システムが想定どおりに動作していない場合は、インスタンスを再起動してください。 |
ECS インスタンス CPU のステータス | ECS インスタンスの基盤レイヤーで CPU 競合または CPU バインドエラーが発生するかどうかを確認します。 | CPU 競合が存在する場合、インスタンスは CPU を取得できないか、他の問題が発生する可能性があります。インスタンスを再起動してください。 |
ECS インスタンスの CPU での分割ロック | ECS インスタンスの CPU で分割ロックが発生するかどうかを確認します。 | ECS インスタンスの CPU で分割ロックが発生します。詳細については、「分割ロックの検出と処理」をご参照ください。 |
ECS インスタンスの DDoS 緩和のステータス | インスタンスのパブリック IP アドレスが DDoS 攻撃を受けているかどうかを確認します。 | ECS インスタンスの IP アドレスが DDoS 攻撃を受けている場合は、他の Anti-DDoS サービスを購入してください。詳細については、「Alibaba Cloud Anti-DDoS ソリューションの比較」をご参照ください。 |
クラウドディスクの読み取り/書き込み機能の制限 | クラウドディスクの読み取り/書き込み機能が制限されているかどうかを確認します。 | ディスクの最大読み取り IOPS および書き込み IOPS に達した場合、ディスクの読み取り操作と書き込み操作は制限されます。ディスクメトリックの表示方法の詳細については、「ブロックストレージのパフォーマンス」をご参照ください。 |
ECS インスタンスディスクの読み込み | インスタンスの起動時にクラウドディスクを ECS インスタンスにアタッチできるかどうかを確認します。 | クラウドディスクをインスタンスにアタッチできなかったためにインスタンスを起動できなかった場合は、インスタンスを停止してから再起動してください。 |
ECS インスタンスの有効期限 | インスタンスのサブスクリプションの有効期限が切れているかどうかを確認します。 | ECS インスタンスの有効期限が切れている場合は、インスタンスを更新してください。詳細については、「サブスクリプションインスタンスの更新」をご参照ください。 |
ECS インスタンス OS のクラッシュ | ECS インスタンスで OS クラッシュが発生するかどうかを確認します。 | 過去 48 時間以内に ECS インスタンスで OS クラッシュが発生した場合は、システムログをトラブルシューティングして原因を特定してください。詳細については、「システムログとスクリーンショットの表示」をご参照ください。 |
ECS インスタンスホストのステータス | ECS インスタンスがデプロイされている物理サーバーでエラーが発生するかどうかを確認します。 | ECS インスタンスがデプロイされている物理サーバーでエラーが発生した場合、インスタンスは異常な状態になり、インスタンスのパフォーマンスが低下する可能性があります。インスタンスを再起動してください。 |
ECS インスタンスイメージの読み込み | システムがインスタンスを初期化するときに、ECS インスタンスがイメージを読み込めるかどうかを確認します。 | システムとイメージに関連する問題により、ECS インスタンスはイメージを読み込めませんでした。インスタンスを再起動してください。 |
ECS インスタンスディスクの I/O ハング | ECS インスタンスのシステムディスクで I/O ハングが発生するかどうかを確認します。 | ECS インスタンスのシステムディスクで I/O ハングが発生した場合は、ディスクメトリックを確認してください。詳細については、「クラウドディスクのモニタリングデータの表示」をご参照ください。Alibaba Cloud Linux 2 での I/O ハングのトラブルシューティング方法については、「ファイルシステムとブロックレイヤーの I/O ハングの検出」をご参照ください。 |
ECS インスタンスの帯域幅上限 | ECS インスタンスの合計帯域幅が、インスタンスタイプで許可されている最大帯域幅に達しているかどうかを確認します。 | ECS インスタンスの合計帯域幅が、インスタンスタイプで許可されている最大帯域幅に達している場合は、より高い帯域幅機能を提供するインスタンスタイプにインスタンスをアップグレードしてください。詳細については、「インスタンス構成の変更の概要」をご参照ください。 |
ECS インスタンスのバースト帯域幅の上限 | インスタンスのバースト帯域幅が、インスタンスタイプで許可されているバースト帯域幅の上限を超えているかどうかを確認します。 | インスタンスのバースト帯域幅が、インスタンスタイプで許可されているバースト帯域幅の上限を超えている場合は、より高い帯域幅を提供するインスタンスタイプにインスタンスをアップグレードしてください。詳細については、「インスタンス構成の変更の概要」をご参照ください。 |
ECS インスタンス NIC の読み込み | ECS インスタンスの NIC を読み込めるかどうかを確認します。 | NIC を読み込めない場合、インスタンスのネットワーク接続に影響します。インスタンスを再起動してください。 |
ECS インスタンスでの NIC セッションの確立 | ECS インスタンスの NIC へのセッションを確立できるかどうかを確認します。 | NIC へのセッションを確立できない場合、または NIC でサポートされているセッションの最大数に達した場合、インスタンスのネットワーク接続またはスループットに影響します。インスタンスを再起動してください。 |
ECS インスタンスでの主要操作 | 最近インスタンスで実行した操作が成功したかどうかを確認します。これらの操作には、インスタンスの起動と停止、およびインスタンスの構成のアップグレードが含まれます。 | 最近インスタンスで実行した操作が失敗した場合は、操作を再実行してください。 |
ECS インスタンス NIC でのパケット損失 | ECS インスタンスの NIC で受信または送信パケット損失が発生するかどうかを確認します。 | ECS インスタンスの NIC で受信または送信パケット損失が発生した場合は、インスタンスを再起動してください。 |
ECS インスタンスのパフォーマンス低下 | ソフトウェアまたはハードウェアの問題により、インスタンスのパフォーマンスが一時的に低下するかどうかを確認します。 | インスタンスのパフォーマンスが低下した場合、パフォーマンスが低下した時間が表示されます。インスタンスの過去のイベントまたはシステムログを表示して、パフォーマンス低下の原因を特定できます。詳細については、「過去のシステムイベントの表示」をご参照ください。 |
低下した ECS インスタンスのパフォーマンス | ECS インスタンスのパフォーマンスが低下しているかどうかを確認します。 | 使用可能な CPU クレジットが不足しているため、ECS インスタンスはベースラインパフォーマンスしか提供できません。 |
ECS インスタンスディスクのサイズ変更 | ECS インスタンスのディスクのサイズが変更されているかどうかを確認します。 | ディスクのサイズ変更後、オペレーティングシステムはファイルシステムのサイズを変更できません。サイズ変更後にディスクを使用できない場合は、ディスクのサイズを再度変更してください。 |
ECS インスタンスリソースアプリケーション | ECS インスタンスに必要な CPU リソースやメモリリソースなどの物理リソースが十分にあるかどうかを確認します。 | ECS インスタンスに必要な物理リソースが不足している場合、インスタンスを起動できません。数分待ってから、インスタンスを再起動してください。別のリージョンに ECS インスタンスを作成することもできます。 |
ECS インスタンス OS ステータス | ECS インスタンスの OS でカーネルパニック、OOM エラー、または内部エラーが発生するかどうかを確認します。 | これらのエラーは、インスタンスの構成が不適切であるか、インスタンスの OS 内のユーザープログラムが原因である可能性があります。インスタンスを再起動してください。 |
ECS インスタンスの仮想化ステータス | インスタンスの基盤となる仮想化レイヤーのコアサービスに例外が存在するかどうかを確認します。 | 例外が存在する場合、インスタンスが応答しないか、予期せず一時停止される可能性があります。インスタンスを再起動してください。 |
GPUNode
診断項目 | 説明 | 解決策 |
コンテナーランタイム | GPU アクセラレーションノードで使用されているコンテナーランタイムが有効かどうかを確認します。 | ノード上の Docker または containerd ランタイムのステータスを確認します。ACK は、Docker または containerd ランタイムを使用する GPU アクセラレーションノードのみをサポートしています。 |
NVIDIA-Container-Runtime バージョン | GPU アクセラレーションノードで使用されている NVIDIA-Container-Runtime のバージョンを確認します。 | NVIDIA-Container-Runtime がインストールされていないか、インストールされている NVIDIA-Container-Runtime のバージョンに問題があります。次の手順を実行します。
|
cGPU モジュールステータス | GPU アクセラレーションノードの cGPU モジュールが想定どおりに実行されているかどうかを確認します。 | ノードで GPU 共有が有効になっているかどうかを確認します。次の手順を実行します。
|
コンテナーランタイム構成 | GPU アクセラレーションノードで使用されているコンテナーランタイムが正しく構成されているかどうかを確認します。 | GPU アクセラレーションノードで使用されているコンテナーランタイムが正しく構成されていません。コンテナーランタイム構成で nvidia-container-runtime フィールドが指定されているかどうかを確認します。
|
NVIDIA-Container-Runtime ステータス | GPU アクセラレーションノードで NVIDIA-Container-Runtime が想定どおりに実行されているかどうかを確認します。 | NVIDIA-Container-Runtime でエラーが発生しています。GPU アクセラレーションノードに関する診断データを収集し、[チケットの送信] します。診断データの収集方法の詳細については、「GPU アクセラレーションノードから診断データを収集する」をご参照ください。 |
NVIDIA モジュールステータス | GPU アクセラレーションノードで NVIDIA モジュールが想定どおりに実行されているかどうかを確認します。 | GPU アクセラレーションノードの NVIDIA モジュールでエラーが発生しています。次の手順を実行します。
|