Cloud Assistantプラグインを使用して、GPUアクセラレーションインスタンスのGPUまたはGPUドライバーを包括的に診断し、GPUの異常やドライバーの異常など、GPUの実行時に発生する一般的なエラーを効率的に特定できます。 異常が診断されると、システムは自動的にO&M操作を開始します。 たとえば、システムはあなたに通知を送信します。
手順
このトピックの手順は、GPUアクセラレーションLinuxインスタンスの診断に適用されます。 GPU高速化Linuxインスタンスは、インスタンスの作成時にCloud Assistantプラグインとともに自動的にプリインストールされます。 Cloud Assistantの詳細については、「概要」をご参照ください。
ECSコンソールにログインします。
左側のナビゲーションウィンドウで、.
ページの上部で、目的のGPUアクセラレーションインスタンスが存在するリージョンを選択します。
[ECSインスタンス] タブでインスタンスを見つけ、[操作] 列の [実行コマンド] をクリックします。
[コマンドの作成] パネルで、[コマンド情報] セクションでパラメーターを設定します。
次のセクションでは、主要なパラメーターについて説明します。 他のパラメータにはデフォルト値を使用します。 詳細については、「コマンドの作成」をご参照ください。
重要パラメーターは、次のセクションで提供されている値に設定する必要があります。 そうしないと、Cloud Assistantはコマンドの実行に失敗する可能性があります。

① コマンドタイプ: [シェル] を選択します。
② コマンドの内容: 次のコマンドの内容を貼り付けます。 サンプルシェルコマンドの詳細については、「ECSインスタンスのシステム構成の表示」をご参照ください。
if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1 then acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck fi acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck③ タイムアウト: コマンド実行のタイムアウト時間を指定します。 コマンドの実行がタイムアウトすると、Cloud Assistantは実行プロセスを強制終了します。 この例では、値は180に設定されています。
説明Timeoutパラメーターの値は、10から86400の範囲の正の整数である必要があります。 単位は秒です。 86400の値は24時間に相当します。
[実行] をクリックして、Cloud Assistantを使用してGPUアクセラレーションインスタンスのヘルスステータスを診断するコマンドを実行します。
実行結果が各診断項目が
OK状態であることを示している場合、インスタンスのGPUは異常と診断されません。
実行結果に、
[Double Bit Error Check]などの1つ以上の診断項目が[Failed]状態であることが示された場合、インスタンスのGPUは異常と診断されます。
診断項目とトラブルシューティング方法
次の表に、Cloud Assistantプラグインを使用してGPUアクセラレーションインスタンスのGPUステータスを診断するときに関連する診断項目を示します。
診断アイテム | 説明 | トラブルシューティング方法 |
二重ビットエラーチェック | GPUにダブルビットエラーが存在するかどうかを確認します。 | システムから返されたエラーの数に基づいてインスタンスを再起動します。 |
Info Rom破損チェック | GPUに関するinfoROM情報を確認します。 | システムによって送信されるO&M通知に基づいて操作を実行します。 |
eRDMA不正チェック | GPUのelastic RDMAインターフェイス (ERI) のステータスを確認します。 | システムによって送信されるO&M通知に基づいて操作を実行します。 |
カーネルのアップグレードチェック | カーネル更新によるドライバ異常が存在するかどうかをチェックします。 | 現在のドライバをアンインストールし、新しいドライバをインストールします。 |
Fabricmanager実行チェック | Fabricmanagerコンポーネントの実行ステータスをチェックします。 | Fabricmanagerコンポーネントをインストールまたは起動します。 |
電源ケーブルのエラーチェック | GPUの電源ケーブルと電源の状態を確認します。 | システムによって送信されるO&M通知に基づいて操作を実行します。 |
GPUデバイスのロストチェック | GPUが見つかるかどうかを確認します。 | システムによって送信されるO&M通知に基づいて操作を実行します。 |
GPUドライバーのインストールチェック | GPUドライバーのインストール状態を確認します。 | ドライバをインストールします。 |
GPU Xidエラーチェック | XIDエラーがGPUに存在するかどうかをチェックします。 | システムによって報告されたさまざまなXIDエラーに基づいてインスタンスを再起動します。 |