All Products
Search
Document Center

Container Service for Kubernetes:Tentukan versi driver GPU kustom untuk sebuah node

Last Updated:Mar 07, 2026

Kluster ACK dengan jenis dan versi berbeda menginstal versi driver NVIDIA yang berbeda secara default. Jika library CUDA Anda memerlukan versi driver NVIDIA yang lebih baru agar kompatibel, Anda dapat menyesuaikan driver NVIDIA pada node GPU Anda. Topik ini menjelaskan cara menentukan versi driver NVIDIA kustom untuk node GPU menggunakan label kelompok node.

Perhatian

  • ACK tidak menjamin kompatibilitas antara versi driver GPU dan versi library CUDA. Anda harus memverifikasi kompatibilitas tersebut sendiri.

  • Untuk informasi selengkapnya mengenai persyaratan versi driver untuk berbagai model kartu NVIDIA, lihat dokumentasi resmi NVIDIA.

  • Untuk image sistem operasi kustom yang telah memiliki komponen GPU seperti driver GPU dan NVIDIA Container Runtime terinstal, ACK tidak dapat menjamin bahwa driver GPU kustom tersebut kompatibel dengan komponen GPU ACK lainnya, seperti komponen pemantauan.

  • Saat Anda menentukan versi driver GPU menggunakan label kelompok node, instalasi driver dipicu ketika sebuah node ditambahkan. Oleh karena itu, metode ini hanya berlaku untuk node baru atau node yang diskalakan. Node yang sudah ada tidak terpengaruh. Untuk menerapkan driver baru pada node yang sudah ada, Anda harus menghapus node tersebut lalu menambahkannya kembali.

  • Tipe instans gn7 dan ebmgn7 memiliki masalah kompatibilitas dengan versi driver 510.xxx dan 515.xxx. Anda dapat menggunakan versi driver sebelum 510, seperti 470.xxx.xxxx, dengan GSP dinonaktifkan, atau menggunakan versi driver 525.125.06 atau yang lebih baru.

  • Instans ECS dengan tipe instans ebmgn7 atau ebmgn7e hanya mendukung versi driver NVIDIA 460.32.03 atau yang lebih baru.

  • Saat pembuatan kelompok node, jika versi driver yang ditentukan tidak tercantum dalam versi driver NVIDIA yang didukung oleh ACK, ACK akan secara otomatis menginstal versi driver default. Menentukan versi driver yang tidak kompatibel dengan OS terbaru dapat menyebabkan kegagalan penambahan node. Dalam kasus seperti ini, selalu pilih versi driver terbaru yang didukung.

Langkah 1: Tentukan versi driver NVIDIA

Pilih versi driver NVIDIA yang sesuai dengan kebutuhan bisnis Anda dari Versi driver NVIDIA yang didukung oleh ACK. Topik ini menggunakan driver versi 550.144.03 sebagai contoh.

Langkah 2: Buat kelompok node dengan versi driver yang ditentukan

  1. Masuk ke Container Service Management Console . Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi sebelah kiri, klik Nodes > Node Pools.

  3. Di pojok kiri atas, klik Create Node Pool. Untuk informasi selengkapnya mengenai item konfigurasi, lihat Buat dan kelola kelompok node. Konfigurasi utama adalah sebagai berikut:

    Pada bagian Node Labels, tambahkan sebuah label. Klik ikon 1. Lalu, pada kotak teks Key, masukkan ack.aliyun.com/nvidia-driver-version. Pada kotak teks Value, masukkan 550.144.03.

Langkah 3: Verifikasi instalasi kustom driver NVIDIA

  1. Jalankan perintah berikut untuk melihat pod yang memiliki label component: nvidia-device-plugin:

    kubectl get po -n kube-system -l component=nvidia-device-plugin -o wide

    Output yang diharapkan:

    NAME                             READY   STATUS    RESTARTS   AGE     IP              NODE                       NOMINATED NODE   READINESS GATES
    ack-nvidia-device-plugin-fnctc   1/1     Running   0          2m33s   10.117.227.43   cn-qingdao.10.117.XXX.XX   <none>           <none>

    Output tersebut menunjukkan bahwa nama pod yang sesuai dengan node yang baru ditambahkan pada kolom NODE adalah ack-nvidia-device-plugin-fnctc.

  2. Jalankan perintah berikut untuk memeriksa apakah versi driver pada node tersebut sesuai dengan versi yang diharapkan:

    kubectl exec -ti ack-nvidia-device-plugin-fnctc -n kube-system -- nvidia-smi

    Output yang diharapkan:

    Mon Mar 24 08:51:55 2025       
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 550.144.03             Driver Version: 550.144.03     CUDA Version: 12.6     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  Tesla P4                       On  |   00000000:00:07.0 Off |                    0 |
    | N/A   33C    P8              7W /   75W |       0MiB /   7680MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
                                                                                             
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+

    Output tersebut menunjukkan bahwa versi drivernya adalah 550.144.03, yang mengindikasikan bahwa driver NVIDIA kustom berhasil diinstal pada node tersebut.

Metode lainnya

Saat menggunakan operasi API CreateClusterNodePool untuk membuat kelompok node, Anda dapat mengatur label untuk driver kustom dalam konfigurasi kelompok node. Contohnya ditunjukkan dalam kode berikut:

{
  // Bagian lainnya dihilangkan.
  ......
    "tags": [
        {
            "key": "ack.aliyun.com/nvidia-driver-version",
            "value": "550.144.03"
        }
    ],
  // Bagian lainnya dihilangkan.
  ......
}