全部产品
Search
文档中心

Container Service for Kubernetes:Tentukan versi driver NVIDIA untuk node dengan menambahkan label

更新时间:Nov 11, 2025

Secara default, versi driver NVIDIA yang diinstal pada kluster Container Service for Kubernetes (ACK) bervariasi tergantung tipe dan versi kluster tersebut. Jika toolkit Compute Unified Device Architecture (CUDA) Anda memerlukan kompatibilitas dengan versi driver NVIDIA yang lebih baru, Anda dapat menyesuaikan instalasi driver NVIDIA pada node GPU. Topik ini menjelaskan cara menentukan versi driver NVIDIA untuk node yang dipercepat GPU dalam kelompok node dengan menambahkan label.

Perhatian

  • ACK tidak menjamin kompatibilitas antara versi driver NVIDIA dan versi toolkit CUDA. Anda perlu memverifikasi kompatibilitas keduanya.

  • Untuk informasi selengkapnya mengenai versi driver NVIDIA yang diperlukan oleh berbagai model NVIDIA, lihat dokumentasi resmi NVIDIA.

  • Untuk citra OS kustom yang telah diinstal dengan driver NVIDIA dan komponen GPU seperti NVIDIA Container Runtime, ACK tidak menjamin kompatibilitas driver NVIDIA dengan komponen GPU lainnya, seperti komponen pemantauan.

  • Jika Anda menambahkan label ke kelompok node untuk menentukan versi driver NVIDIA bagi node yang dipercepat GPU, proses instalasi driver akan dipicu saat node ditambahkan. Oleh karena itu, hal ini hanya berlaku untuk node yang baru diskalakan atau baru ditambahkan, dan node yang sudah ada tidak akan terpengaruh. Untuk menerapkan driver baru pada node yang sudah ada, Anda perlu menghapus node tersebut dan menambahkan kembali node yang sudah ada.

  • Tipe instans gn7 dan ebmgn7 tidak kompatibel dengan versi driver NVIDIA 510.xxx dan 515.xxx. Untuk tipe instans ini, kami merekomendasikan agar Anda menggunakan versi driver yang lebih lama dari 510.xxx dengan GPU System Processor (GSP) dinonaktifkan, seperti 470.xxx.xxxx, atau versi 525.125.06 atau yang lebih baru.

  • Tipe instans Elastic Compute Service (ECS) ebmgn7 atau ebmgn7e hanya mendukung versi driver NVIDIA yang lebih baru dari 460.32.03.

  • Saat pembuatan kelompok node, jika versi driver yang ditentukan tidak tercantum dalam daftar versi driver NVIDIA yang didukung oleh ACK, ACK akan secara otomatis menginstal versi driver default. Menentukan versi driver yang tidak kompatibel dengan OS terbaru dapat menyebabkan kegagalan penambahan node. Dalam kasus seperti ini, selalu pilih versi driver terbaru yang didukung.

Langkah 1: Tentukan versi driver NVIDIA

Pilih versi driver NVIDIA yang kompatibel dengan aplikasi Anda dari Versi driver NVIDIA yang didukung oleh ACK daftar. Dalam contoh ini, versi driver NVIDIA adalah 550.144.03.

Langkah 2: Buat kelompok node dan tentukan versi driver

  1. Masuk ke Konsol ACK. Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang ingin dikelola, lalu klik namanya. Di panel navigasi sebelah kiri, pilih Nodes > Node Pools.

  3. Klik Create Node Pool di pojok kiri atas. Untuk informasi selengkapnya mengenai parameter, lihat Create and manage a node pool. Bagian berikut menampilkan parameter tersebut.

    Pada bagian Node Label, klik ikon 1. Atur Key menjadi ack.aliyun.com/nvidia-driver-version, lalu atur Value menjadi 550.144.03.

Langkah 3: Periksa apakah versi driver NVIDIA yang ditentukan telah diinstal

  1. Jalankan perintah berikut untuk mengkueri Pod yang memiliki label component: nvidia-device-plugin:

    kubectl get po -n kube-system -l component=nvidia-device-plugin -o wide

    Output yang diharapkan:

    NAME                             READY   STATUS    RESTARTS   AGE     IP              NODE                       NOMINATED NODE   READINESS GATES
    ack-nvidia-device-plugin-fnctc   1/1     Running   0          2m33s   10.117.227.43   cn-qingdao.10.117.XXX.XX   <none>           <none>

    Output tersebut menunjukkan bahwa nama Pod yang berjalan pada node yang baru ditambahkan adalah ack-nvidia-device-plugin-fnctc.

  2. Jalankan perintah berikut untuk mengkueri versi driver NVIDIA pada node tersebut:

    kubectl exec -ti ack-nvidia-device-plugin-fnctc -n kube-system -- nvidia-smi

    Output yang diharapkan:

    Mon Mar 24 08:51:55 2025       
    +-----------------------------------------------------------------------------------------+
    | NVIDIA-SMI 550.144.03             Driver Version: 550.144.03     CUDA Version: 12.6     |
    |-----------------------------------------+------------------------+----------------------+
    | GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
    |                                         |                        |               MIG M. |
    |=========================================+========================+======================|
    |   0  Tesla P4                       On  |   00000000:00:07.0 Off |                    0 |
    | N/A   33C    P8              7W /   75W |       0MiB /   7680MiB |      0%      Default |
    |                                         |                        |                  N/A |
    +-----------------------------------------+------------------------+----------------------+
                                                                                             
    +-----------------------------------------------------------------------------------------+
    | Processes:                                                                              |
    |  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
    |        ID   ID                                                               Usage      |
    |=========================================================================================|
    |  No running processes found                                                             |
    +-----------------------------------------------------------------------------------------+

    Output tersebut menunjukkan bahwa versi driver NVIDIA adalah 550.144.03, yang mengindikasikan bahwa driver NVIDIA berhasil diinstal dengan versi yang ditentukan.

Metode lainnya

Saat menggunakan CreateClusterNodePool untuk membuat kelompok node, Anda dapat menambahkan label ke konfigurasi kelompok node guna menentukan versi driver NVIDIA. Contoh kode berikut mengilustrasikan hal tersebut:

{
  // Bidang lainnya tidak ditampilkan.
  ......
    "tags": [
        {
            "key": "ack.aliyun.com/nvidia-driver-version",
            "value": "550.144.03"
        }
    ],
  // Bidang lainnya tidak ditampilkan.
  ......
}