すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:Cloud Assistantプラグインを使用してGPUを診断する

最終更新日:Jul 08, 2025

Cloud Assistantプラグインを使用して、GPUアクセラレーションインスタンスのGPUまたはGPUドライバーを包括的に診断し、GPUの異常やドライバーの異常など、GPUの実行時に発生する一般的なエラーを効率的に特定できます。 異常が診断されると、システムは自動的にO&M操作を開始します。 たとえば、システムはあなたに通知を送信します。

手順

説明

このトピックの手順は、GPUアクセラレーションLinuxインスタンスの診断に適用されます。 GPU高速化Linuxインスタンスは、インスタンスの作成時にCloud Assistantプラグインとともに自動的にプリインストールされます。 Cloud Assistantの詳細については、「概要」をご参照ください。

  1. ECSコンソールにログインします。

  2. 左側のナビゲーションウィンドウで、メンテナンス&モニタリング > クラウドアシスタント.

  3. ページの上部で、目的のGPUアクセラレーションインスタンスが存在するリージョンを選択します。

  4. [ECSインスタンス] タブでインスタンスを見つけ、[操作] 列の [実行コマンド] をクリックします。

  5. [コマンドの作成] パネルで、[コマンド情報] セクションでパラメーターを設定します。

    次のセクションでは、主要なパラメーターについて説明します。 他のパラメータにはデフォルト値を使用します。 詳細については、「コマンドの作成」をご参照ください。

    重要

    パラメーターは、次のセクションで提供されている値に設定する必要があります。 そうしないと、Cloud Assistantはコマンドの実行に失敗する可能性があります。

    云助手.jpg

    コマンドタイプ: [シェル] を選択します。

    コマンドの内容: 次のコマンドの内容を貼り付けます。 サンプルシェルコマンドの詳細については、「ECSインスタンスのシステム構成の表示」をご参照ください。

    if acs-plugin-manager --list --local | grep ACS-ECS-GpuCheck > /dev/null 2>&1
    then
        acs-plugin-manager --remove --plugin ACS-ECS-GpuCheck
    fi
    acs-plugin-manager --exec --plugin ACS-ECS-GpuCheck

    タイムアウト: コマンド実行のタイムアウト時間を指定します。 コマンドの実行がタイムアウトすると、Cloud Assistantは実行プロセスを強制終了します。 この例では、値は180に設定されています。

    説明

    Timeoutパラメーターの値は、10から86400の範囲の正の整数である必要があります。 単位は秒です。 86400の値は24時間に相当します。

  6. [実行] をクリックして、Cloud Assistantを使用してGPUアクセラレーションインスタンスのヘルスステータスを診断するコマンドを実行します。

    • 実行結果が各診断項目がOK状態であることを示している場合、インスタンスのGPUは異常と診断されません。

      GPU State.jpg

    • 実行結果に、[Double Bit Error Check] などの1つ以上の診断項目が [Failed] 状態であることが示された場合、インスタンスのGPUは異常と診断されます。

      GPU State-en.jpg

診断項目とトラブルシューティング方法

次の表に、Cloud Assistantプラグインを使用してGPUアクセラレーションインスタンスのGPUステータスを診断するときに関連する診断項目を示します。

診断アイテム

説明

トラブルシューティング方法

二重ビットエラーチェック

GPUにダブルビットエラーが存在するかどうかを確認します。

システムから返されたエラーの数に基づいてインスタンスを再起動します。

Info Rom破損チェック

GPUに関するinfoROM情報を確認します。

システムによって送信されるO&M通知に基づいて操作を実行します。

eRDMA不正チェック

GPUのelastic RDMAインターフェイス (ERI) のステータスを確認します。

システムによって送信されるO&M通知に基づいて操作を実行します。

カーネルのアップグレードチェック

カーネル更新によるドライバ異常が存在するかどうかをチェックします。

現在のドライバをアンインストールし、新しいドライバをインストールします。

Fabricmanager実行チェック

Fabricmanagerコンポーネントの実行ステータスをチェックします。

Fabricmanagerコンポーネントをインストールまたは起動します。

電源ケーブルのエラーチェック

GPUの電源ケーブルと電源の状態を確認します。

システムによって送信されるO&M通知に基づいて操作を実行します。

GPUデバイスのロストチェック

GPUが見つかるかどうかを確認します。

システムによって送信されるO&M通知に基づいて操作を実行します。

GPUドライバーのインストールチェック

GPUドライバーのインストール状態を確認します。

ドライバをインストールします。

GPU Xidエラーチェック

XIDエラーがGPUに存在するかどうかをチェックします。

システムによって報告されたさまざまなXIDエラーに基づいてインスタンスを再起動します。