Secara default, versi driver NVIDIA yang diinstal pada kluster Container Service for Kubernetes (ACK) bervariasi tergantung tipe dan versi kluster tersebut. Jika toolkit Compute Unified Device Architecture (CUDA) Anda memerlukan kompatibilitas dengan versi driver NVIDIA yang lebih baru, Anda dapat menyesuaikan instalasi driver NVIDIA pada node GPU. Topik ini menjelaskan cara menentukan versi driver NVIDIA untuk node yang dipercepat GPU dalam kelompok node dengan menambahkan label.
Perhatian
ACK tidak menjamin kompatibilitas antara versi driver NVIDIA dan versi toolkit CUDA. Anda perlu memverifikasi kompatibilitas keduanya.
Untuk informasi selengkapnya mengenai versi driver NVIDIA yang diperlukan oleh berbagai model NVIDIA, lihat dokumentasi resmi NVIDIA.
Untuk citra OS kustom yang telah diinstal dengan driver NVIDIA dan komponen GPU seperti NVIDIA Container Runtime, ACK tidak menjamin kompatibilitas driver NVIDIA dengan komponen GPU lainnya, seperti komponen pemantauan.
Jika Anda menambahkan label ke kelompok node untuk menentukan versi driver NVIDIA bagi node yang dipercepat GPU, proses instalasi driver akan dipicu saat node ditambahkan. Oleh karena itu, hal ini hanya berlaku untuk node yang baru diskalakan atau baru ditambahkan, dan node yang sudah ada tidak akan terpengaruh. Untuk menerapkan driver baru pada node yang sudah ada, Anda perlu menghapus node tersebut dan menambahkan kembali node yang sudah ada.
Tipe instans gn7 dan ebmgn7 tidak kompatibel dengan versi driver NVIDIA 510.xxx dan 515.xxx. Untuk tipe instans ini, kami merekomendasikan agar Anda menggunakan versi driver yang lebih lama dari 510.xxx dengan GPU System Processor (GSP) dinonaktifkan, seperti 470.xxx.xxxx, atau versi 525.125.06 atau yang lebih baru.
Tipe instans Elastic Compute Service (ECS) ebmgn7 atau ebmgn7e hanya mendukung versi driver NVIDIA yang lebih baru dari 460.32.03.
Saat pembuatan kelompok node, jika versi driver yang ditentukan tidak tercantum dalam daftar versi driver NVIDIA yang didukung oleh ACK, ACK akan secara otomatis menginstal versi driver default. Menentukan versi driver yang tidak kompatibel dengan OS terbaru dapat menyebabkan kegagalan penambahan node. Dalam kasus seperti ini, selalu pilih versi driver terbaru yang didukung.
Langkah 1: Tentukan versi driver NVIDIA
Pilih versi driver NVIDIA yang kompatibel dengan aplikasi Anda dari Versi driver NVIDIA yang didukung oleh ACK daftar. Dalam contoh ini, versi driver NVIDIA adalah 550.144.03.
Langkah 2: Buat kelompok node dan tentukan versi driver
Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.
Pada halaman Clusters, temukan kluster yang ingin dikelola, lalu klik namanya. Di panel navigasi sebelah kiri, pilih .
Klik Create Node Pool di pojok kiri atas. Untuk informasi selengkapnya mengenai parameter, lihat Create and manage a node pool. Bagian berikut menampilkan parameter tersebut.
Pada bagian Node Label, klik ikon
. Atur Key menjadi ack.aliyun.com/nvidia-driver-version, lalu atur Value menjadi550.144.03.
Langkah 3: Periksa apakah versi driver NVIDIA yang ditentukan telah diinstal
Jalankan perintah berikut untuk mengkueri Pod yang memiliki label
component: nvidia-device-plugin:kubectl get po -n kube-system -l component=nvidia-device-plugin -o wideOutput yang diharapkan:
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES ack-nvidia-device-plugin-fnctc 1/1 Running 0 2m33s 10.117.227.43 cn-qingdao.10.117.XXX.XX <none> <none>Output tersebut menunjukkan bahwa nama Pod yang berjalan pada node yang baru ditambahkan adalah
ack-nvidia-device-plugin-fnctc.Jalankan perintah berikut untuk mengkueri versi driver NVIDIA pada node tersebut:
kubectl exec -ti ack-nvidia-device-plugin-fnctc -n kube-system -- nvidia-smiOutput yang diharapkan:
Mon Mar 24 08:51:55 2025 +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 550.144.03 Driver Version: 550.144.03 CUDA Version: 12.6 | |-----------------------------------------+------------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+========================+======================| | 0 Tesla P4 On | 00000000:00:07.0 Off | 0 | | N/A 33C P8 7W / 75W | 0MiB / 7680MiB | 0% Default | | | | N/A | +-----------------------------------------+------------------------+----------------------+ +-----------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=========================================================================================| | No running processes found | +-----------------------------------------------------------------------------------------+Output tersebut menunjukkan bahwa versi driver NVIDIA adalah 550.144.03, yang mengindikasikan bahwa driver NVIDIA berhasil diinstal dengan versi yang ditentukan.
Metode lainnya
Saat menggunakan CreateClusterNodePool untuk membuat kelompok node, Anda dapat menambahkan label ke konfigurasi kelompok node guna menentukan versi driver NVIDIA. Contoh kode berikut mengilustrasikan hal tersebut:
{
// Bidang lainnya tidak ditampilkan.
......
"tags": [
{
"key": "ack.aliyun.com/nvidia-driver-version",
"value": "550.144.03"
}
],
// Bidang lainnya tidak ditampilkan.
......
}