すべてのプロダクト
Search
ドキュメントセンター

Elastic GPU Service:GPU の切断を引き起こす XID 119/120 エラーの解決

最終更新日:Jun 23, 2026

Linux GPU インスタンスでは、GPU システムプロセッサ (GSP) コンポーネントの問題により、GPU の初期化に失敗し、XID 119 または XID 120 のエラーメッセージが生成されることがあります。このトピックでは、この問題を解決する方法について説明します。

症状

Linux システムで GPU がバスから切断され、初期化に失敗します。`sh nvidia-bug-report.sh` コマンドを実行すると、ログに XID 119 または XID 120 のエラーメッセージが含まれます。次の例は、XID 119 エラーを示しています:

Xid (PCI:0000:69:00): 119, pid=18584, name=cache_mgr_main, Timeout waiting for RPC from GSP! Expected function 10 (FREE) (0xa55a0120 0x0).
Xid (PCI:0000:69:00): 119, pid=18584, name=cache_mgr_main, Timeout waiting for RPC from GSP! Expected function 10 (FREE) (0xa55a0030 0x0).
Xid (PCI:0000:69:00): 119, pid=18584, name=cache_mgr_main, Timeout waiting for RPC from GSP! Expected function 10 (FREE) (0xa55a0020 0x0).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800110 0x84).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800a4c 0x4).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800a4c 0x4).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x2080014a 0x10c).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800810 0x7c).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x208001a4 0x10).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800609 0x8).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x2080014b 0x5).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x20800157 0x0).
Xid (PCI:0000:69:00): 119, pid=25394, name=nvidia-smi, Timeout waiting for RPC from GSP! Expected function 76 (GSP_RM_CONTROL) (0x2080014b 0x5).
説明

他の XID エラーの詳細については、「NVIDIA の一般的な XID エラー」をご参照ください。

原因

GSP コンポーネントの異常な状態がこの問題の原因です。最新の NVIDIA ドライバーにアップグレードしても問題が解決しない場合は、GSP 機能を無効にする必要があります。

説明

GSP 機能の影響の詳細については、「GSP 機能の有効化または無効化による影響」をご参照ください。

ソリューション

  1. GPU インスタンスに接続します。

    詳細については、「ワークベンチを使用して Linux インスタンスに接続する」をご参照ください。

  2. 次のコマンドを実行して、GSP コンポーネントを無効にします。

    sudo su
    echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
  3. GPU インスタンスを再起動します。

    詳細については、「インスタンスの再起動」をご参照ください。

  4. 再度 GPU インスタンスに接続します。

  5. 次のコマンドを実行して、`EnableGpuFirmware` パラメーターの値を確認します。

    cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
    • 出力が `EnableGpuFirmware: 0` の場合、GSP コンポーネントは無効になり、問題は解決されています。

      cat /proc/driver/nvidia/params | grep EnableGpuFirmware
      EnableGpuFirmware: 0
      説明

      出力が `EnableGpuFirmware: 0` の場合、`nvidia-smi` コマンドは正常な GPU ステータスを報告します。

    • 出力が `EnableGpuFirmware: 0` でない場合、GSP コンポーネントは無効になっていません。次のステップに進み、NVIDIA GPU のステータスを確認してください。

  6. `nvidia-smi` コマンドを実行して、NVIDIA GPU のステータスを確認します。

    • コマンドの出力に正常な GPU ステータスが表示されていれば、問題は解決されています。たとえば、次の出力では、ファンの速度、温度、パフォーマンスモードが正常です。

      [ecs-usexxxukZ ~]$ nvidia-smi
      Wed Aug 14 11:02:11 2024
      +-----------------------------------------------------------------------------------------+
      | NVIDIA-SMI 550.90.07              Driver Version: 550.90.07      CUDA Version: 12.4     |
      |-----------------------------------------+------------------------+----------------------+
      | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
      |                                         |                        |               MIG M. |
      |=========================================+========================+======================|
      |   0  NVIDIA A10                     On  |   00000000:00:07.0 Off |                  Off |
      |  0%   26C    P8              9W /  150W |       1MiB /  24564MiB |      0%      Default |
      |                                         |                        |                  N/A |
      +-----------------------------------------+------------------------+----------------------+
      +-----------------------------------------------------------------------------------------+
      | Processes:                                                                              |
      |  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
      |        ID   ID                                                               Usage      |
      |=========================================================================================|
      |  No running processes found                                                             |
      +-----------------------------------------------------------------------------------------+
    • 出力が異常な場合は、Alibaba Cloud テクニカルサポートに連絡してオフライン移行をリクエストしてください。