Pada instans Ubuntu dalam keluarga ECS Bare Metal Instance yang Dioptimalkan untuk Komputasi dengan Akselerasi GPU ebmgn7 atau ebmgn7e, layanan apt-daily dapat secara otomatis melakukan upgrade terhadap nvidia-fabricmanager jika diinstal sebagai paket mandiri. Ketidaksesuaian versi antara nvidia-fabricmanager dan driver Tesla ini mencegah nvidia-fabricmanager berjalan saat startup, sehingga GPU menjadi tidak tersedia.
Gejala
Setelah menginstal nvidia-fabricmanager sebagai paket apt mandiri, error berikut muncul saat Anda memeriksa status layanan, dan GPU tidak tersedia.

Penyebab
Layanan apt-daily menjalankan pembaruan paket otomatis pada Ubuntu. Jika nvidia-fabricmanager diinstal sebagai paket apt mandiri, apt-daily akan melakukan upgrade-nya secara terpisah dari driver Tesla. Ketidaksesuaian versi ini menyebabkan nvidia-fabricmanager gagal saat startup, sehingga GPU menjadi tidak tersedia.
nvidia-fabricmanager dan driver Tesla harus memiliki versi yang persis sama. Jika berbeda, nvidia-fabricmanager gagal berjalan.
Solusi
Ikuti langkah-langkah berikut untuk memulihkan ketersediaan GPU dan mencegah ketidaksesuaian versi terjadi kembali.
Langkah 1: Periksa versi
Periksa versi nvidia-fabricmanager.
sudo dpkg --list | grep nvidia-fabricmanagerDalam contoh ini, versi nvidia-fabricmanager adalah
550.90.07dan nama paketnya adalahnvidia-fabricmanager-550.
Periksa versi driver Tesla.
nvidia-smiVersi driver Tesla ditampilkan di header output, misalnya
550.90.07.
Langkah 2: Atasi ketidaksesuaian versi
nvidia-fabricmanager dan driver Tesla harus memiliki versi yang persis sama. Jika berbeda, nvidia-fabricmanager gagal berjalan.
Jika versi dari Langkah 1 sesuai, lanjutkan ke Langkah 3.
Jika versinya berbeda, atasi ketidaksesuaian tersebut dengan salah satu cara berikut:
Upgrade driver Tesla agar sesuai dengan versi nvidia-fabricmanager saat ini. Lihat Upgrade an NVIDIA Tesla driver.
Instal ulang nvidia-fabricmanager agar sesuai dengan versi driver Tesla. Untuk menguninstall nvidia-fabricmanager terlebih dahulu, lihat Step 1: Uninstall nvidia-fabricmanager.
Langkah 3: Pin versi nvidia-fabricmanager
Jalankan perintah berikut untuk mencegah apt-daily melakukan upgrade otomatis terhadap nvidia-fabricmanager. Ganti nvidia-fabricmanager-550 dengan nama paket aktual dari Langkah 1.
sudo apt-mark hold nvidia-fabricmanager-550Jika hasil berikut ditampilkan, nvidia-fabricmanager dilarang diperbarui.

Langkah 4: Verifikasi bahwa hold aktif
sudo apt-mark showholdOutput menampilkan daftar semua paket yang di-hold. Pastikan nvidia-fabricmanager-550 muncul dalam daftar bersama cloud-init.
cloud-init
nvidia-fabricmanager-550