全部产品
Search
文档中心

Container Service for Kubernetes:Tingkatkan versi cGPU sebuah node

更新时间:Nov 11, 2025

Node dalam kluster ACK harus memiliki modul cGPU yang diinstal untuk mendukung berbagi GPU dan penjadwalan. Topik ini menjelaskan cara meningkatkan modul cGPU pada sebuah node menggunakan perintah atau konsol.

Langkah 1: Tingkatkan komponen

Jenis kluster

Metode peningkatan komponen

  • ACK managed cluster Pro

  • ACK Edge cluster Pro

Untuk meningkatkan komponen ack-ai-installer, lihat Tingkatkan komponen penjadwalan GPU bersama.

ACK dedicated cluster

Untuk meningkatkan komponen ack-cgpu, lakukan langkah-langkah berikut:

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, temukan kluster yang Anda inginkan dan klik namanya. Di panel navigasi sebelah kiri, pilih Applications > Helm.

  3. Pada halaman Helm, temukan komponen ack-cgpu, klik Update di kolom Tindakan, pilih Version, lalu klik OK.

Langkah 2: Tingkatkan node yang ada

Penting
  • Hentikan aplikasi GPU pada node selama proses peningkatan.

  • Tingkatkan satu node terlebih dahulu. Setelah memverifikasi bahwa aplikasi GPU berjalan sesuai harapan, tingkatkan node GPU lainnya secara batch.

  • Metode ini mereset disk sistem node. Jika disk sistem node Anda berisi data, buat cadangan terlebih dahulu.

1. Hapus dan tambahkan kembali node

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Pada halaman Clusters, klik nama kluster yang ingin Anda ubah. Di panel navigasi kiri, pilih Nodes > Nodes.

  3. Pada halaman Nodes, pilih node cGPU yang akan ditingkatkan dan klik Batch Remove. Pada kotak dialog Remove Node, pilih Drain Node Automatically.

  4. Tambahkan kembali node yang telah dihapus ke kelompok node asalnya. Untuk informasi lebih lanjut, lihat Tambahkan node yang ada ke kluster.

    Penting

    Pilih metode penambahan node otomatis. Node tidak akan direset jika Anda menambahkannya secara manual.

2. Verifikasi hasil

  1. Jalankan perintah berikut untuk mengkueri pod cgpu-installer-****** yang sesuai dengan node yang baru ditambahkan:

    kubectl get po -l name=cgpu-installer -n kube-system -o wide

    Output yang diharapkan:

    NAME                   READY   STATUS    RESTARTS   AGE    IP                NODE                         NOMINATED NODE   READINESS GATES
    cgpu-installer-*****   1/1     Running   0          4d2h   192.168.XXX.XX1   cn-beijing.192.168.XXX.XX1   <none>           <none>
    cgpu-installer-**2     1/1     Running   0          4d2h   192.168.XXX.XX2   cn-beijing.192.168.XXX.XX2   <none>           <none>
    cgpu-installer-**3     1/1     Running   0          4d2h   192.168.XXX.XX3   cn-beijing.192.168.XXX.XX3   <none>           <none>
  2. Jalankan perintah berikut untuk mengakses pod bernama cgpu-installer-******:

    kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bash
  3. Jalankan perintah berikut untuk mengkueri versi cGPU saat ini:

    nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version

    Contoh output:

    1.5.16
    Catatan

    Untuk informasi tentang versi cGPU terbaru, lihat ack-ai-installer.

Kompatibilitas versi cGPU

Kompatibilitas driver NVIDIA

Versi cGPU

Driver NVIDIA yang kompatibel

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

Didukung:

  • seri 460

  • seri 470

  • seri 510

  • seri 515

  • seri 525

  • seri 535

  • seri 550

  • seri 560

  • seri 565

  • seri 570

  • seri 575

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

Didukung:

  • seri 460

  • seri 470 <= 470.161.03

  • seri 510 <= 510.108.03

  • seri 515 <= 515.86.01

  • seri 525 <= 525.89.03

Tidak didukung:

  • seri 535

  • seri 550

  • seri 560

  • seri 565

  • seri 570

  • seri 575

1.0.3

0.8.17

0.8.13

Didukung:

  • seri 460

  • seri 470 <= 470.161.03

Tidak didukung:

  • seri 510

  • seri 515

  • seri 525

  • seri 535

  • seri 550

  • seri 560

  • seri 565

  • seri 570

  • seri 575

Kompatibilitas family instance

Versi cGPU

Family instance yang kompatibel

1.5.20

1.5.19

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

Tidak didukung:

  • ebmgn9t

1.5.8

1.5.7

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

Tidak didukung:

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.6

1.5.5

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

Tidak didukung:

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

1.5.3

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

Tidak didukung:

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

0.8.17

0.8.13

Didukung:

  • gn6i / gn6e / gn6v / gn6t / ebmgn6i / ebmgn6t / ebmgn6e

Tidak didukung:

  • gn7i / gn7 / gn7e / ebmgn7i / ebmgn7e

  • gn8t / ebmgn8t

  • gn8is / gn8v / ebmgn8is / ebmgn8v

  • gn8ia / ebmgn8ia

  • ebmgn9t

Kompatibilitas nvidia-container-toolkit

Versi cGPU

nvidia-container-toolkit yang kompatibel

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

1.5.2

1.0.10

Didukung:

  • nvidia-container-toolkit <= 1.10

  • nvidia-container-toolkit: 1.11 ~ 1.17

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

0.8.17

0.8.13

Didukung:

  • nvidia-container-toolkit <= 1.10

Tidak didukung:

  • nvidia-container-toolkit: 1.11 ~ 1.17

Kompatibilitas versi kernel

Versi cGPU

Versi kernel yang kompatibel

1.5.20

1.5.19

1.5.18

1.5.17

1.5.16

1.5.15

1.5.13

1.5.12

1.5.11

1.5.10

1.5.9

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.15

1.5.8

1.5.7

1.5.6

1.5.5

1.5.3

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.10

1.5.2

1.0.10

1.0.9

1.0.8

1.0.7

1.0.6

1.0.5

1.0.3

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.1

0.8.17

Didukung:

  • kernel 3.x

  • kernel 4.x

  • kernel 5.x <= 5.0

0.8.13

0.8.12

0.8.10

Didukung:

  • kernel 3.x

  • kernel 4.x

Tidak didukung:

  • kernel 5.x