Cara mengonfigurasi kebijakan penjadwalan cGPU untuk berbagi GPU - Container Service for Kubernetes

Kluster ACK Pro mendukung berbagi GPU. Anda dapat memilih kebijakan alokasi daya komputasi dengan mengatur parameter policy pada komponen cGPU.

Untuk informasi selengkapnya tentang cGPU, lihat Apa itu cGPU?.

Prasyarat

Kluster ACK Pro telah dibuat dan menjalankan Kubernetes 1.18.8 atau versi yang lebih baru. Untuk informasi selengkapnya tentang cara melakukan upgrade kluster, lihat Upgrade kluster secara manual.
Versi cGPU adalah 1.0.6 atau lebih baru. Untuk informasi selengkapnya tentang cara melakukan upgrade cGPU, lihat Upgrade versi cGPU pada node.

Catatan penting

Jika modul isolasi cGPU sudah terinstal pada node, Anda harus me-restart node tersebut setelah menginstal komponen cGPU agar kebijakan diterapkan. Untuk informasi selengkapnya, lihat Restart instans.

Catatan
Anda dapat login ke node dan menjalankan perintah cat /proc/cgpu_km/version untuk memeriksa apakah modul isolasi cGPU telah terinstal. Jika perintah tersebut mengembalikan nomor versi cGPU, berarti modul tersebut telah terinstal.
Jika modul isolasi cGPU belum terinstal pada node Anda atau telah di-uninstall, kebijakan akan langsung berlaku setelah Anda menginstal komponen cGPU.
Semua node yang menggunakan berbagi GPU dalam kluster yang sama harus menerapkan kebijakan yang sama.

Langkah 1: Periksa apakah komponen cGPU telah terinstal

Prosedur konfigurasi kebijakan alokasi daya komputasi bergantung pada apakah komponen cGPU sudah terinstal. Pertama, periksa apakah komponen tersebut sudah terinstal di kluster Anda.

Login ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Applications > Helm.
Pada halaman Helm, periksa apakah komponen ack-ai-installer ada dalam daftar.

Kehadiran komponen ack-ai-installer menunjukkan bahwa komponen cGPU telah terinstal.

Langkah 2: Konfigurasikan kebijakan penjadwalan

cGPU belum terinstal

Login ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi kiri, klik Applications > Cloud-native AI Suite.
Pada halaman Cloud-native AI Suite, klik Deploy.
Pada bagian Scheduling, pilih Scheduling Policy Extension (Batch Task Scheduling, GPU Sharing, Topology-aware GPU Scheduling), lalu klik Advanced di sebelah kanan.

Pada halaman Parameters, ubah bidang policy, lalu klik OK.

cgpu:
  enabled: true
  image: acs/cgpu-installer
  tag: v1.5.3-8d3fc1b-aliyun
  financeCloudImageTag: v1.0.7-fin
  imagePullPolicy: IfNotPresent
  policy: 1
  nodeSelector: {}
  checkRegions: true

Tabel berikut menjelaskan nilai-nilai yang valid. Untuk informasi selengkapnya, lihat Contoh penggunaan cGPU.

Nilai	Deskripsi
0	Fair-share scheduling. Setiap kontainer dialokasikan time slice tetap. Proporsi time slice tersebut adalah `1/max_inst`.
1	Preemptive scheduling. Setiap kontainer menggunakan sebanyak mungkin time slice. Time slice per kontainer adalah `1/Jumlah kontainer saat ini`.
2	Weight-based preemptive scheduling. Kebijakan ini diaktifkan secara otomatis ketika ALIYUN_COM_GPU_SCHD_WEIGHT diatur ke nilai lebih besar dari 1.
3	Fixed percentage scheduling. Gunakan kebijakan ini untuk menetapkan persentase tetap daya komputasi.
4	Soft scheduling. Kebijakan ini memberikan isolasi yang lebih lemah dibandingkan preemptive scheduling.
5	Built-in scheduling. Ini adalah metode penjadwalan yang tertanam dalam driver GPU.

Di bagian bawah halaman, klik Deploy Cloud-native AI Suite.

cGPU sudah terinstal

Jalankan perintah berikut untuk mengedit DaemonSet yang menginstal modul isolasi cGPU.
```
kubectl edit daemonset cgpu-installer -nkube-system
```

Ubah dan simpan DaemonSet tersebut.

Periksa versi image pada DaemonSet.
Pastikan versi imagenya v1.0.6 atau lebih baru. Contohnya:
```
 image: registry-vpc.cn-hongkong.aliyuncs.com/acs/cgpu-installer:<image_version>
```

Ubah value.

Pada bagian containers.env, atur value dari POLICY ke nomor kebijakan yang diinginkan.

# Bidang lainnya dihilangkan untuk singkatnya.
spec:
  containers:
  - env:
    - name: POLICY
      value: "1"
# Bidang lainnya dihilangkan untuk singkatnya.

Tabel berikut menjelaskan nilai value yang valid.

Nilai	Deskripsi
0	Fair-share scheduling. Setiap kontainer dialokasikan time slice tetap. Proporsi time slice tersebut adalah `1/max_inst`.
1	Preemptive scheduling. Setiap kontainer menggunakan sebanyak mungkin time slice. Time slice per kontainer adalah `1/Jumlah kontainer saat ini`.
2	Weight-based preemptive scheduling. Kebijakan ini diaktifkan secara otomatis ketika ALIYUN_COM_GPU_SCHD_WEIGHT diatur ke nilai lebih besar dari 1.
3	Fixed percentage scheduling. Gunakan kebijakan ini untuk menetapkan persentase tetap daya komputasi.
4	Soft scheduling. Kebijakan ini memberikan isolasi yang lebih lemah dibandingkan preemptive scheduling.
5	Built-in scheduling. Ini adalah metode penjadwalan yang tertanam dalam driver GPU.

Restart node yang menggunakan berbagi GPU. Untuk informasi selengkapnya, lihat Restart instans.