このトピックでは、GPUアクセラレーションLinuxインスタンスで発生するXID 119やXID 120などのGPU初期化エラーの原因と解決策について説明します。 エラーは、GPUシステムプロセッサ (GSP) コンポーネントの例外によって引き起こされる可能性があります。
問題の説明
GPUアクセラレーションLinuxインスタンスでは、GPUがバスから脱落します。 たとえば、GPUがインスタンスの初期化に失敗したことを示すエラーメッセージが表示されます。 sh nvidia-bug-report.sh nvidia-bug-report.shコマンドを実行すると、コマンド出力にXID 119またはXID 120のエラーメッセージを表示できます。 次の図は、XID 119エラーメッセージの例を示しています。

その他のXIDエラーについては、「NVIDIA Common XID errors」をご参照ください。
原因
GSPコンポーネントで例外が発生するため、上記の問題が発生する可能性があります。 NVIDIAドライバを最新バージョンに更新できます。 更新後も問題が解決しない場合は、GSPコンポーネントを無効にすることを推奨します。
GSPの詳細については、第42章を参照してください。 NVIDIAの公式ドキュメントにあるGSPファームウェア。
解決策
GPU高速化インスタンスに接続します。
詳細については、「パスワードまたはキーを使用したLinuxインスタンスへの接続」をご参照ください。
次のコマンドを実行して、GSPコンポーネントを無効にします。
sudo su echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.confGPU高速化インスタンスを再起動します。
詳細は、「インスタンスの再起動」をご参照ください。
GPU高速化インスタンスに再接続します。
次のコマンドを実行して、
EnableGpuFirmwareパラメーターの値を取得します。cat /proc/driver/nvidia/params | grep EnableGpuFirmware:EnableGpuFirmwareパラメーターに
0が返された場合、GSPコンポーネントは無効になります。 この場合、上記の問題は解決されます。
説明EnableGpuFirmwareパラメーターの値が
0の場合、nvidia-smiコマンドの出力は、NVIDIA-smiコマンドを実行してnvidia GPUのステータスを確認するときに、NVIDIA GPUが期待どおりに実行されることを示します。EnableGpuFirmwareパラメーターに
0が返されない場合、GSPコンポーネントは無効になりません。 この場合、次の手順に進み、NVIDIA GPUが期待どおりに実行されるかどうかを確認します。
nvidia-smiコマンドを実行して、NVIDIA GPUが期待どおりに実行されるかどうかを確認します。次の図に示すように、コマンド出力がGPUのファン速度、温度、パフォーマンスモードの通常値を表示するなど、GPUが期待どおりに実行されることをコマンド出力が示す場合、上記の問題は解決されます。

エラーが返された場合、GPUで問題が解決しません。 Alibaba Cloudテクニカルサポートに問い合わせて、インスタンスをシャットダウンし、データを移行してください。