全部產品
Search
文件中心

Elastic GPU Service:使用GPU時出現XID 119/XID 120錯誤導致GPU掉卡

更新時間:Aug 23, 2024

在Linux系統上使用GPU時,可能會因為GPU的GSP(GPU System Processor)組件運行狀態異常,導致GPU卡在初始化時提示失敗(例如出現XID 119或XID 120錯誤資訊),本文為您介紹這種情況的解決方案。

問題現象

使用GPU時出現GPU掉卡現象,例如在Linux系統上使用GPU時,出現GPU卡初始化失敗的錯誤提示。執行sh nvidia-bug-report.sh nvidia-bug-report.sh命令後,在產生的日誌中,可以看到XID 119或XID 120錯誤資訊。以XID 119報錯頁面為例,顯示如下:

報錯資訊.png

說明

關於其他XID Errors的更多資訊,請參見NVIDIA Common XID Errors

問題原因

引起上述問題的原因可能是GPU的GSP(GPU System Processor)組件運行狀態異常,升級NVIDIA最新版本驅動後,如果GPU掉卡問題仍然會複現,則建議您關閉GSP功能。

說明

如果您想瞭解更多關於GSP功能的影響詳情,請參見開啟或關閉GSP功能的影響

解決方案

  1. 遠端連線GPU執行個體。

    具體操作,請參見通過密碼或密鑰認證登入Linux執行個體

  2. 執行以下命令,關閉GPU的GSP組件。

    sudo su
    echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
  3. 重啟GPU執行個體。

    具體操作,請參見重啟執行個體

  4. 再次登入GPU執行個體。

  5. 執行以下命令,查看EnableGpuFirmware參數值。

    cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
    • 如果返回結果是EnableGpuFirmware: 0,則表示GPU的GSP組件關閉,問題已修複。

      Dingtalk_20240813131616.jpg

      說明

      只要EnableGpuFirmware: 0,則執行nvidia-smi檢查GPU卡狀態時,其返回結果肯定是正常的。

    • 如果返回結果不是EnableGpuFirmware: 0,則表示GSP組件沒有關閉,請繼續執行下一步確認NVIDIA GPU是否正常。

  6. 執行nvidia-smi命令,確認NVIDIA GPU卡是否正常。

    • 如果返回結果顯示GPU卡正常,例如GPU風扇轉速、溫度和效能模式等都正常,如下圖所示,則問題已解決。

      GPU卡.jpg

    • 如果返回結果異常,表示NVIDIA GPU卡仍然存在問題,請聯絡阿里雲營運技術人員進行關機遷移操作。