Kluster ACK yang dikelola edisi Pro mendukung fitur GPU bersama. Topik ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi GPU bersama dengan mengatur kebijakan komponen GPU bersama.
Untuk pengenalan tentang cGPU, lihat Apa itu cGPU.
Prasyarat
-
Anda telah membuat kluster edisi ACK Pro dengan versi Kubernetes 1.18.8 atau lebih baru. Untuk prosedur peningkatan Kubernetes, lihat dokumen referensi.
-
Versi cGPU Anda adalah 1.0.6 atau lebih baru. Untuk prosedur peningkatan cGPU, lihat dokumen referensi.
Catatan
-
Jika modul isolasi cGPU sudah terinstal pada node, Anda harus me-restart node tersebut setelah menginstal komponen GPU bersama agar kebijakan berlaku. Untuk informasi selengkapnya, lihat dokumen referensi.
CatatanAnda dapat login ke node dan menjalankan perintah
cat /proc/cgpu_km/versionuntuk memeriksa apakah modul isolasi cGPU telah terinstal. Jika output perintah menampilkan nomor versi cGPU, berarti modul isolasi cGPU telah terinstal. -
Jika node Anda belum memiliki modul isolasi cGPU yang terinstal atau telah di-uninstall, kebijakan akan langsung berlaku setelah Anda menginstal komponen GPU bersama.
-
Node GPU bersama dalam kluster yang sama hanya dapat menggunakan satu kebijakan.
Langkah 1: Periksa Apakah Komponen GPU Bersama Telah Terinstal
Saat mengonfigurasi kebijakan alokasi daya komputasi GPU bersama, metode operasinya berbeda tergantung pada apakah komponen GPU bersama telah terinstal. Oleh karena itu, pastikan terlebih dahulu apakah komponen tersebut telah terinstal di kluster.
Login ke Container Service Management Console . Di panel navigasi sebelah kiri, klik Clusters.
Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi sebelah kiri, klik .
-
Pada halaman Helm, periksa daftar komponen untuk komponen ack-ai-installer.
Jika komponen ack-ai-installer ada, berarti komponen GPU bersama telah terinstal. Jika tidak, berarti belum terinstal.
Langkah 2: Konfigurasikan Kebijakan Alokasi Daya Komputasi GPU Bersama
Bagian ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi GPU bersama untuk dua skenario: saat komponen GPU bersama belum terinstal atau sudah terinstal.
Komponen GPU Bersama Belum Terinstal
Login ke Container Service Management Console . Di panel navigasi sebelah kiri, klik Clusters.
Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi sebelah kiri, klik .
-
Pada halaman Cloud-native AI Suite, klik Deploy.
-
Di area Scheduling, pilih Scheduling Policy Extension (Batch Task Scheduling, GPU Sharing, Topology-aware GPU Scheduling). Lalu, klik Advanced di sebelah kanan.
-
Pada halaman Parameters, ubah bidang
policy. Kemudian, klik OK.
Untuk informasi selengkapnya tentang nilai kebijakan, lihat Contoh Penggunaan Layanan cGPU.Nilai
Deskripsi
0
Penjadwalan rata-rata. Setiap kontainer menempati time slice tetap, dan rasio time slice-nya adalah
1/max_inst.1
Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice, dan rasio time slice-nya adalah
1/current_number_of_containers.2
Penjadwalan preemptive berbobot. Saat nilai ALIYUN_COM_GPU_SCHD_WEIGHT lebih besar dari 1, penjadwalan preemptive berbobot akan digunakan secara otomatis.
3
Penjadwalan daya komputasi tetap. Digunakan untuk persentase daya komputasi tetap.
4
Penjadwalan daya komputasi lemah. Isolasi lebih lemah dibandingkan penjadwalan preemptive.
5
Penjadwalan native. Ini adalah metode penjadwalan dari driver GPU itu sendiri.
-
Di bagian bawah halaman, klik Deploy Cloud-native AI Suite.
Komponen GPU Bersama Sudah Terinstal
-
Jalankan perintah berikut untuk mengedit DaemonSet yang menginstal modul isolasi cGPU dalam komponen GPU bersama.
kubectl edit daemonset cgpu-installer -nkube-system -
Modifikasi dan simpan DaemonSet yang menginstal modul isolasi cGPU.
-
Periksa versi gambar DaemonSet melalui bidang
image.Pastikan versi gambarnya v1.0.6 atau lebih baru. Contoh bidang
imageadalah sebagai berikut:image: registry-vpc.cn-hongkong.aliyuncs.com/acs/cgpu-installer:<Image Version> -
Ubah nilai
value.Di bawah parameter
containers.env, ubahvaluedariPOLICYmenjadi nilai kebijakan target.# Bidang lainnya dihilangkan. spec: containers: - env: - name: POLICY value: "1" # Bidang lainnya dihilangkan.Deskripsi nilai untuk
valueadalah sebagai berikut.Nilai
Deskripsi
0
Penjadwalan rata-rata. Setiap kontainer menempati time slice tetap, dan rasio time slice-nya adalah
1/max_inst.1
Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice, dan rasio time slice-nya adalah
1/current_number_of_containers.2
Penjadwalan preemptive berbobot. Saat nilai ALIYUN_COM_GPU_SCHD_WEIGHT lebih besar dari 1, penjadwalan preemptive berbobot akan digunakan secara otomatis.
3
Penjadwalan daya komputasi tetap. Digunakan untuk persentase daya komputasi tetap.
4
Penjadwalan daya komputasi lemah. Isolasi lebih lemah dibandingkan penjadwalan preemptive.
5
Penjadwalan native. Ini adalah metode penjadwalan dari driver GPU itu sendiri.
-
-
Restart instans node GPU bersama. Untuk informasi selengkapnya, lihat dokumen referensi.