全部产品
Search
文档中心

Elastic GPU Service:Apa yang harus saya lakukan jika GPU terlepas dari bus karena kesalahan XID 119 atau XID 120?

更新时间:Jul 02, 2025

Topik ini menjelaskan penyebab dan solusi untuk kesalahan inisialisasi GPU seperti XID 119 atau XID 120 pada instance Linux dengan akselerasi GPU. Kesalahan tersebut dapat disebabkan oleh pengecualian dalam komponen GPU System Processor (GSP).

Deskripsi masalah

GPU terlepas dari bus pada instance Linux dengan akselerasi GPU. Sebagai contoh, muncul pesan kesalahan yang menunjukkan bahwa GPU gagal melakukan inisialisasi pada instance tersebut. Setelah menjalankan perintah sh nvidia-bug-report.sh nvidia-bug-report.sh, Anda dapat melihat pesan kesalahan XID 119 atau XID 120 di output perintah. Gambar berikut menunjukkan contoh pesan kesalahan XID 119.

报错信息.png

Catatan

Untuk informasi tentang kesalahan XID lainnya, kunjungi Kesalahan XID Umum NVIDIA.

Penyebab

Masalah ini dapat terjadi akibat pengecualian dalam komponen GSP. Anda dapat memperbarui driver NVIDIA ke versi terbaru. Jika masalah tetap ada setelah pembaruan, kami sarankan menonaktifkan komponen GSP.

Catatan

Untuk informasi lebih lanjut tentang GSP, lihat Bab 42. Firmware GSP dalam dokumentasi resmi NVIDIA.

Solusi

  1. Hubungkan ke instance dengan akselerasi GPU.

    Untuk informasi lebih lanjut, lihat Menghubungkan ke instance Linux menggunakan kata sandi atau kunci.

  2. Jalankan perintah berikut untuk menonaktifkan komponen GSP:

    sudo su
    echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
  3. Mulai ulang instance dengan akselerasi GPU.

    Untuk informasi lebih lanjut, lihat Memulai ulang instance.

  4. Hubungkan kembali ke instance dengan akselerasi GPU.

  5. Jalankan perintah berikut untuk mendapatkan nilai parameter EnableGpuFirmware:

    cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
    • Jika 0 dikembalikan untuk parameter EnableGpuFirmware, maka komponen GSP dinonaktifkan. Dalam hal ini, masalah di atas telah diselesaikan.

      Dingtalk_20240813131616.jpg

      Catatan

      Jika nilai parameter EnableGpuFirmware adalah 0, output perintah nvidia-smi menunjukkan bahwa NVIDIA GPU berjalan seperti yang diharapkan ketika Anda menjalankan perintah nvidia-smi untuk memeriksa status NVIDIA GPU.

    • Jika 0 tidak dikembalikan untuk parameter EnableGpuFirmware, maka komponen GSP tidak dinonaktifkan. Dalam hal ini, lanjutkan ke langkah berikutnya untuk memeriksa apakah NVIDIA GPU berjalan seperti yang diharapkan.

  6. Jalankan perintah nvidia-smi untuk memeriksa apakah NVIDIA GPU berjalan seperti yang diharapkan.

    • Jika output perintah menunjukkan bahwa GPU berjalan seperti yang diharapkan, seperti jika output perintah menampilkan nilai normal dari kecepatan kipas, suhu, dan mode performa GPU, seperti yang ditunjukkan pada gambar berikut, maka masalah di atas telah diselesaikan.

      GPU卡.jpg

    • Jika kesalahan dikembalikan, masalah masih ada pada GPU. Hubungi dukungan teknis Alibaba Cloud untuk mematikan instance dan memigrasi data.