Linux GPU インスタンスでは、GPU システムプロセッサ (GSP) コンポーネントの問題により、GPU の初期化に失敗し、XID 119 または XID 120 のエラーメッセージが生成されることがあります。このトピックでは、この問題を解決する方法について説明します。
症状
Linux システムで GPU がバスから切断され、初期化に失敗します。`sh nvidia-bug-report.sh` コマンドを実行すると、ログに XID 119 または XID 120 のエラーメッセージが含まれます。次の例は、XID 119 エラーを示しています:
Xid (PCI:0000:69:00): 119, pid=18584, name=cache_mgr_main, Timeout waiting for RPC from GSP! Expected function 10 (FREE) (0xa55a0120 0x0).
Xid (PCI:0000:69:00): 119, pid=18584, name=cache_mgr_main, Timeout waiting for RPC from GSP! Expected function 10 (FREE) (0xa55a0030 0x0).
Xid (PCI:0000:69:00): 119, pid=18584, name=cache_mgr_main, Timeout waiting for RPC from GSP! Expected function 10 (FREE) (0xa55a0020 0x0).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800110 0x84).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800a4c 0x4).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800a4c 0x4).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x2080014a 0x10c).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800810 0x7c).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x208001a4 0x10).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800609 0x8).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x2080014b 0x5).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800157 0x0).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x2080014b 0x5).
他の XID エラーの詳細については、「NVIDIA の一般的な XID エラー」をご参照ください。
原因
GSP コンポーネントの異常な状態がこの問題の原因です。最新の NVIDIA ドライバーにアップグレードしても問題が解決しない場合は、GSP 機能を無効にする必要があります。
GSP 機能の影響の詳細については、「GSP 機能の有効化または無効化による影響」をご参照ください。
ソリューション
-
GPU インスタンスに接続します。
詳細については、「ワークベンチを使用して Linux インスタンスに接続する」をご参照ください。
-
次のコマンドを実行して、GSP コンポーネントを無効にします。
sudo su echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf -
GPU インスタンスを再起動します。
詳細については、「インスタンスの再起動」をご参照ください。
-
再度 GPU インスタンスに接続します。
-
次のコマンドを実行して、`EnableGpuFirmware` パラメーターの値を確認します。
cat /proc/driver/nvidia/params | grep EnableGpuFirmware:-
出力が `EnableGpuFirmware: 0` の場合、GSP コンポーネントは無効になり、問題は解決されています。
cat /proc/driver/nvidia/params | grep EnableGpuFirmware EnableGpuFirmware: 0説明出力が `EnableGpuFirmware: 0` の場合、`nvidia-smi` コマンドは正常な GPU ステータスを報告します。
-
出力が `EnableGpuFirmware: 0` でない場合、GSP コンポーネントは無効になっていません。次のステップに進み、NVIDIA GPU のステータスを確認してください。
-
-
`nvidia-smi` コマンドを実行して、NVIDIA GPU のステータスを確認します。
-
コマンドの出力に正常な GPU ステータスが表示されていれば、問題は解決されています。たとえば、次の出力では、ファンの速度、温度、パフォーマンスモードが正常です。
[ecs-usexxxukZ ~]$ nvidia-smi Wed Aug 14 11:02:11 2024 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 550.90.07 Driver Version: 550.90.07 CUDA Version: 12.4 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 NVIDIA A10 On | 00000000:00:07.0 Off | Off | | 0% 26C P8 9W / 150W | 1MiB / 24564MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+ -
出力が異常な場合は、Alibaba Cloud テクニカルサポートに連絡してオフライン移行をリクエストしてください。
-