Fitur berbagi GPU tersedia di ACK Pro clusters. Anda dapat memilih kebijakan alokasi daya komputasi yang berbeda dengan menyetel kebijakan komponen cGPU. Topik ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi untuk berbagi GPU.
Untuk informasi lebih lanjut tentang cGPU, lihat Apa itu cGPU?.
Prasyarat
Sebuah ACK Pro cluster telah dibuat dan versi Kubernetes dari cluster tersebut adalah 1.18.8 atau yang lebih baru. Untuk informasi lebih lanjut tentang cara memperbarui versi Kubernetes, lihat Tingkatkan cluster ACK secara manual.
cGPU versi 1.0.6 atau yang lebih baru digunakan. Untuk informasi lebih lanjut tentang cara memperbarui cGPU, lihat Perbarui versi cGPU pada sebuah node.
Perhatian
Jika modul isolasi cGPU sudah terinstal pada node sebelum Anda menginstal komponen cGPU, Anda harus me-restart node agar kebijakan cGPU berlaku. Untuk informasi lebih lanjut, lihat Restart sebuah instance.
CatatanUntuk memeriksa apakah modul isolasi cGPU terinstal pada sebuah node, masuk ke node dan jalankan perintah
cat /proc/cgpu_km/version. Jika sistem mengembalikan nomor versi cGPU, modul isolasi cGPU telah terinstal.Jika modul isolasi cGPU tidak terinstal atau modul tersebut telah di-uninstall, Anda harus menginstal modul tersebut agar kebijakan cGPU berlaku.
Node yang memiliki fitur berbagi GPU diaktifkan dalam sebuah cluster menggunakan kebijakan cGPU yang sama.
Langkah 1: Periksa apakah komponen cGPU terinstal
Operasi yang diperlukan untuk mengonfigurasi kebijakan alokasi daya komputasi bervariasi tergantung pada apakah komponen cGPU terinstal. Anda harus memeriksa apakah komponen cGPU terinstal sebelum mengonfigurasi kebijakan alokasi daya komputasi.
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Di halaman Clusters, temukan cluster yang diinginkan dan klik namanya. Di panel navigasi kiri, pilih .
Di halaman Helm, periksa apakah komponen ack-ai-installer ada.
Jika ack-ai-installer ada, komponen cGPU telah terinstal.
Langkah 2: Konfigurasikan kebijakan alokasi daya komputasi
Berikut ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi untuk berbagi GPU ketika komponen cGPU terinstal dan ketika komponen tersebut tidak terinstal.
Komponen cGPU tidak terinstal
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Di halaman Clusters, temukan cluster yang diinginkan dan klik namanya. Di panel navigasi kiri, pilih .
Di halaman Cloud-native AI Suite, klik Deploy.
Di bagian Scheduling, pilih Scheduling Policy Extension (Batch Task Scheduling, GPU Sharing, Topology-aware GPU Scheduling), dan klik Advanced.
Di halaman Parameters, ubah bidang
policy, dan klik OK.
Tabel berikut menjelaskan nilai-nilai yang valid. Untuk informasi lebih lanjut, lihat Contoh penggunaan cGPU.Nilai
Deskripsi
0
Penjadwalan fair-share. Setiap kontainer menempati time slice tetap. Proporsi time slice adalah
1/max_inst.1
Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice. Proporsi time slice adalah
1/Number of containers.2
Penjadwalan preemptive berbasis bobot. Ketika ALIYUN_COM_GPU_SCHD_WEIGHT disetel ke nilai lebih besar dari 1, penjadwalan preemptive berbasis bobot digunakan.
3
Penjadwalan persentase tetap. Daya komputasi dijadwalkan pada persentase tetap.
4
Penjadwalan lunak. Dibandingkan dengan penjadwalan preemptive, penjadwalan lunak mengisolasi sumber daya GPU dengan cara yang lebih lembut.
5
Penjadwalan built-in. Kebijakan penjadwalan built-in untuk driver GPU.
Di bagian bawah halaman, klik Deploy Cloud-native AI Suite.
Komponen cGPU terinstal
Jalankan perintah berikut untuk memodifikasi DaemonSet tempat modul isolasi cGPU dari komponen cGPU berjalan:
kubectl edit daemonset cgpu-installer -nkube-systemModifikasi DaemonSet tempat modul isolasi cGPU berjalan dan simpan perubahan.
Lihat versi gambar DaemonSet di bidang
image.Pastikan bahwa versi gambar adalah 1.0.6 atau yang lebih baru. Contoh bidang
image:image: registry-vpc.cn-hongkong.aliyuncs.com/acs/cgpu-installer:<Image version>Modifikasi bidang
value.Di parameter
containers.env, atur bidangvalueuntuk kunciPOLICY.#Bidang lainnya dihilangkan. spec: containers: - env: - name: POLICY value: "1" #Bidang lainnya dihilangkan.Tabel berikut menjelaskan nilai-nilai dari bidang
value.Nilai
Deskripsi
0
Penjadwalan fair-share. Setiap kontainer menempati time slice tetap. Proporsi time slice adalah
1/max_inst.1
Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice. Proporsi time slice adalah
1/Number of containers.2
Penjadwalan preemptive berbasis bobot. Ketika ALIYUN_COM_GPU_SCHD_WEIGHT disetel ke nilai lebih besar dari 1, penjadwalan preemptive berbasis bobot digunakan.
3
Penjadwalan persentase tetap. Daya komputasi dijadwalkan pada persentase tetap.
4
Penjadwalan lunak. Dibandingkan dengan penjadwalan preemptive, penjadwalan lunak mengisolasi sumber daya GPU dengan cara yang lebih lembut.
5
Penjadwalan built-in. Kebijakan penjadwalan built-in untuk driver GPU.
Restart node yang memiliki fitur berbagi GPU diaktifkan.
Untuk informasi lebih lanjut, lihat Restart sebuah instance.