すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:XID 119またはXID 120エラーが原因でGPUがバスから外れた場合はどうすればよいですか?

最終更新日:Sep 13, 2024

このトピックでは、GPUアクセラレーションLinuxインスタンスで発生するXID 119やXID 120などのGPU初期化エラーの原因と解決策について説明します。 エラーは、GPUシステムプロセッサ (GSP) コンポーネントの例外によって引き起こされる可能性があります。

問題の説明

GPUアクセラレーションLinuxインスタンスでは、GPUがバスから脱落します。 たとえば、GPUがインスタンスの初期化に失敗したことを示すエラーメッセージが表示されます。 sh nvidia-bug-report.sh nvidia-bug-report.shコマンドを実行すると、コマンド出力にXID 119またはXID 120のエラーメッセージを表示できます。 次の図は、XID 119エラーメッセージの例を示しています。

报错信息.png

説明

その他のXIDエラーについては、「NVIDIA Common XID errors」をご参照ください。

原因

GSPコンポーネントで例外が発生するため、上記の問題が発生する可能性があります。 NVIDIAドライバを最新バージョンに更新できます。 更新後も問題が解決しない場合は、GSPコンポーネントを無効にすることを推奨します。

解決策

  1. GPU高速化インスタンスに接続します。

    詳細については、「パスワードまたはキーを使用したLinuxインスタンスへの接続」をご参照ください。

  2. 次のコマンドを実行して、GSPコンポーネントを無効にします。

    sudo su
    echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
  3. GPU高速化インスタンスを再起動します。

    詳細は、「インスタンスの再起動」をご参照ください。

  4. GPU高速化インスタンスに再接続します。

  5. 次のコマンドを実行して、EnableGpuFirmwareパラメーターの値を取得します。

    cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
    • EnableGpuFirmwareパラメーターに0が返された場合、GSPコンポーネントは無効になります。 この場合、上記の問題は解決されます。

      Dingtalk_20240813131616.jpg

      説明

      EnableGpuFirmwareパラメーターの値が0の場合、nvidia-smiコマンドの出力は、NVIDIA-smiコマンドを実行してnvidia GPUのステータスを確認するときに、NVIDIA GPUが期待どおりに実行されることを示します。

    • EnableGpuFirmwareパラメーターに0が返されない場合、GSPコンポーネントは無効になりません。 この場合、次の手順に進み、NVIDIA GPUが期待どおりに実行されるかどうかを確認します。

  6. nvidia-smiコマンドを実行して、NVIDIA GPUが期待どおりに実行されるかどうかを確認します。

    • 次の図に示すように、コマンド出力がGPUのファン速度、温度、パフォーマンスモードの通常値を表示するなど、GPUが期待どおりに実行されることをコマンド出力が示す場合、上記の問題は解決されます。

      GPU卡.jpg

    • エラーが返された場合、GPUで問題が解決しません。 Alibaba Cloudテクニカルサポートに問い合わせて、インスタンスをシャットダウンし、データを移行してください。