全部产品
Search
文档中心

Elastic GPU Service:Apa yang harus saya lakukan jika GPU gagal bekerja karena versi nvidia-fabricmanager tidak konsisten dengan versi Driver Tesla?

更新时间:Jul 02, 2025

Untuk instance yang menjalankan Ubuntu dan termasuk dalam keluarga instance komputasi dioptimalkan dengan akselerasi GPU ebmgn7 atau ebmgn7e, layanan apt-daily dapat memperbarui nvidia-fabricmanager secara otomatis jika paket instalasi digunakan. Namun, ini dapat menyebabkan ketidaksesuaian versi antara nvidia-fabricmanager dan driver Tesla, sehingga nvidia-fabricmanager gagal memulai dan GPU tidak berfungsi dengan benar. Topik ini memberikan solusi untuk masalah tersebut.

Deskripsi Masalah

Setelah menginstal nvidia-fabricmanager menggunakan paket instalasi, pesan kesalahan berikut muncul saat memeriksa status layanan. Dalam situasi ini, GPU tidak berfungsi sebagaimana mestinya.

报错.jpg

Penyebab

Jika Anda menginstal nvidia-fabricmanager menggunakan paket instalasi pada instance komputasi dioptimalkan dengan akselerasi GPU yang menjalankan Ubuntu, layanan apt-daily akan secara otomatis memperbarui nvidia-fabricmanager. Hal ini menyebabkan ketidaksesuaian versi antara nvidia-fabricmanager dan Driver Tesla, sehingga nvidia-fabricmanager gagal memulai dan GPU tidak berfungsi sebagaimana mestinya.

Solusi

GPU hanya dapat berfungsi sebagaimana mestinya jika versi nvidia-fabricmanager konsisten dengan versi Driver Tesla. Untuk mencegah atau menyelesaikan ketidaktersediaan GPU akibat ketidaksesuaian versi antara nvidia-fabricmanager dan Driver Tesla, ikuti langkah-langkah berikut:

  1. Periksa versi nvidia-fabricmanager dan versi Driver Tesla.

    • Jalankan perintah berikut untuk memeriksa versi nvidia-fabricmanager:

      sudo dpkg --list |grep nvidia-fabricmanager

      Dalam contoh ini, versi nvidia-fabricmanager adalah 550.90.07. nvidia-fabricmanager-550 adalah nama paket instalasi.

      fabricmanager.jpg

    • Jalankan perintah berikut untuk memeriksa versi Driver Tesla:

      nvidia-smi

      Dalam contoh ini, versi Driver Tesla adalah 550.90.07.

      驱动版本-550.jpg

  2. Periksa apakah versi nvidia-fabricmanager saat ini konsisten dengan versi Driver Tesla.

    • Jika kedua versi tersebut konsisten, lanjutkan ke langkah berikutnya.

    • Jika kedua versi tersebut tidak konsisten, lakukan salah satu tindakan berikut:

      • Tingkatkan Driver Tesla untuk memastikan bahwa versi Driver Tesla konsisten dengan versi nvidia-fabricmanager. Untuk informasi lebih lanjut, lihat Tingkatkan Driver NVIDIA Tesla.

      • Copot dan instal ulang nvidia-fabricmanager. Kemudian, lanjutkan ke langkah berikutnya.

        Catatan

        Untuk informasi tentang cara mencopot nvidia-fabricmanager, lihat Langkah 1: Copot nvidia-fabricmanager.

  3. Jalankan perintah berikut untuk mencegah nvidia-fabricmanager diperbarui secara otomatis:

    Dalam contoh ini, paket instalasi nvidia-fabricmanager-550 digunakan. Ganti nama paket instalasi dalam perintah dengan nama paket nvidia-fabricmanager yang sebenarnya.

    sudo apt-mark hold nvidia-fabricmanager-550 

    Jika hasil berikut ditampilkan, nvidia-fabricmanager dilarang untuk diperbarui.

    禁止自动升级.jpg

  4. Jalankan perintah berikut untuk memverifikasi bahwa pembaruan untuk nvidia-fabricmanager dilarang:

    sudo apt-mark showhold

    Jika informasi cloud-init dan nvidia-fabricmanager-550 ditampilkan, pembaruan untuk nvidia-fabricmanager dilarang.

    showhold.jpg