Topik ini menjelaskan penyebab dan solusi untuk kesalahan inisialisasi GPU seperti XID 119 atau XID 120 pada instance Linux dengan akselerasi GPU. Kesalahan tersebut dapat disebabkan oleh pengecualian dalam komponen GPU System Processor (GSP).
Deskripsi masalah
GPU terlepas dari bus pada instance Linux dengan akselerasi GPU. Sebagai contoh, muncul pesan kesalahan yang menunjukkan bahwa GPU gagal melakukan inisialisasi pada instance tersebut. Setelah menjalankan perintah sh nvidia-bug-report.sh nvidia-bug-report.sh, Anda dapat melihat pesan kesalahan XID 119 atau XID 120 di output perintah. Gambar berikut menunjukkan contoh pesan kesalahan XID 119.

Untuk informasi tentang kesalahan XID lainnya, kunjungi Kesalahan XID Umum NVIDIA.
Penyebab
Masalah ini dapat terjadi akibat pengecualian dalam komponen GSP. Anda dapat memperbarui driver NVIDIA ke versi terbaru. Jika masalah tetap ada setelah pembaruan, kami sarankan menonaktifkan komponen GSP.
Untuk informasi lebih lanjut tentang GSP, lihat Bab 42. Firmware GSP dalam dokumentasi resmi NVIDIA.
Solusi
Hubungkan ke instance dengan akselerasi GPU.
Untuk informasi lebih lanjut, lihat Menghubungkan ke instance Linux menggunakan kata sandi atau kunci.
Jalankan perintah berikut untuk menonaktifkan komponen GSP:
sudo su echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.confMulai ulang instance dengan akselerasi GPU.
Untuk informasi lebih lanjut, lihat Memulai ulang instance.
Hubungkan kembali ke instance dengan akselerasi GPU.
Jalankan perintah berikut untuk mendapatkan nilai parameter
EnableGpuFirmware:cat /proc/driver/nvidia/params | grep EnableGpuFirmware:Jika
0dikembalikan untuk parameter EnableGpuFirmware, maka komponen GSP dinonaktifkan. Dalam hal ini, masalah di atas telah diselesaikan.
CatatanJika nilai parameter EnableGpuFirmware adalah
0, output perintahnvidia-smimenunjukkan bahwa NVIDIA GPU berjalan seperti yang diharapkan ketika Anda menjalankan perintah nvidia-smi untuk memeriksa status NVIDIA GPU.Jika
0tidak dikembalikan untuk parameter EnableGpuFirmware, maka komponen GSP tidak dinonaktifkan. Dalam hal ini, lanjutkan ke langkah berikutnya untuk memeriksa apakah NVIDIA GPU berjalan seperti yang diharapkan.
Jalankan perintah
nvidia-smiuntuk memeriksa apakah NVIDIA GPU berjalan seperti yang diharapkan.Jika output perintah menunjukkan bahwa GPU berjalan seperti yang diharapkan, seperti jika output perintah menampilkan nilai normal dari kecepatan kipas, suhu, dan mode performa GPU, seperti yang ditunjukkan pada gambar berikut, maka masalah di atas telah diselesaikan.

Jika kesalahan dikembalikan, masalah masih ada pada GPU. Hubungi dukungan teknis Alibaba Cloud untuk mematikan instance dan memigrasi data.