Node dalam kluster ACK harus memiliki modul cGPU yang diinstal untuk mendukung berbagi GPU dan penjadwalan. Topik ini menjelaskan cara meningkatkan modul cGPU pada sebuah node menggunakan perintah atau konsol.
Langkah 1: Tingkatkan komponen
Jenis kluster | Metode peningkatan komponen |
| Untuk meningkatkan komponen ack-ai-installer, lihat Tingkatkan komponen penjadwalan GPU bersama. |
ACK dedicated cluster | Untuk meningkatkan komponen ack-cgpu, lakukan langkah-langkah berikut:
|
Langkah 2: Tingkatkan node yang ada
Hentikan aplikasi GPU pada node selama proses peningkatan.
Tingkatkan satu node terlebih dahulu. Setelah memverifikasi bahwa aplikasi GPU berjalan sesuai harapan, tingkatkan node GPU lainnya secara batch.
Metode ini mereset disk sistem node. Jika disk sistem node Anda berisi data, buat cadangan terlebih dahulu.
1. Hapus dan tambahkan kembali node
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, klik nama kluster yang ingin Anda ubah. Di panel navigasi kiri, pilih .
Pada halaman Nodes, pilih node cGPU yang akan ditingkatkan dan klik Batch Remove. Pada kotak dialog Remove Node, pilih Drain Node Automatically.
Tambahkan kembali node yang telah dihapus ke kelompok node asalnya. Untuk informasi lebih lanjut, lihat Tambahkan node yang ada ke kluster.
PentingPilih metode penambahan node otomatis. Node tidak akan direset jika Anda menambahkannya secara manual.
2. Verifikasi hasil
Jalankan perintah berikut untuk mengkueri pod cgpu-installer-****** yang sesuai dengan node yang baru ditambahkan:
kubectl get po -l name=cgpu-installer -n kube-system -o wideOutput yang diharapkan:
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES cgpu-installer-***** 1/1 Running 0 4d2h 192.168.XXX.XX1 cn-beijing.192.168.XXX.XX1 <none> <none> cgpu-installer-**2 1/1 Running 0 4d2h 192.168.XXX.XX2 cn-beijing.192.168.XXX.XX2 <none> <none> cgpu-installer-**3 1/1 Running 0 4d2h 192.168.XXX.XX3 cn-beijing.192.168.XXX.XX3 <none> <none>Jalankan perintah berikut untuk mengakses pod bernama
cgpu-installer-******:kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bashJalankan perintah berikut untuk mengkueri versi cGPU saat ini:
nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/versionContoh output:
1.5.16CatatanUntuk informasi tentang versi cGPU terbaru, lihat ack-ai-installer.
Kompatibilitas versi cGPU
Kompatibilitas driver NVIDIA
Versi cGPU | Driver NVIDIA yang kompatibel |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | Didukung:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 | Didukung:
Tidak didukung:
|
1.0.3 0.8.17 0.8.13 | Didukung:
Tidak didukung:
|
Kompatibilitas family instance
Versi cGPU | Family instance yang kompatibel |
1.5.20 1.5.19 | Didukung:
|
1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | Didukung:
Tidak didukung:
|
1.5.8 1.5.7 | Didukung:
Tidak didukung:
|
1.5.6 1.5.5 | Didukung:
Tidak didukung:
|
1.5.3 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | Didukung:
Tidak didukung:
|
0.8.17 0.8.13 | Didukung:
Tidak didukung:
|
Kompatibilitas nvidia-container-toolkit
Versi cGPU | nvidia-container-toolkit yang kompatibel |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 1.5.2 1.0.10 | Didukung:
|
1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 0.8.17 0.8.13 | Didukung:
Tidak didukung:
|
Kompatibilitas versi kernel
Versi cGPU | Versi kernel yang kompatibel |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | Didukung:
|
1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | Didukung:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | Didukung:
|
0.8.17 | Didukung:
|
0.8.13 0.8.12 0.8.10 | Didukung:
Tidak didukung:
|