全部产品
Search
文档中心

Container Service for Kubernetes:Konfigurasikan kebijakan alokasi daya komputasi cGPU untuk berbagi GPU

更新时间:Jul 02, 2025

Fitur berbagi GPU tersedia di ACK Pro clusters. Anda dapat memilih kebijakan alokasi daya komputasi yang berbeda dengan menyetel kebijakan komponen cGPU. Topik ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi untuk berbagi GPU.

Untuk informasi lebih lanjut tentang cGPU, lihat Apa itu cGPU?.

Prasyarat

  • Sebuah ACK Pro cluster telah dibuat dan versi Kubernetes dari cluster tersebut adalah 1.18.8 atau yang lebih baru. Untuk informasi lebih lanjut tentang cara memperbarui versi Kubernetes, lihat Tingkatkan cluster ACK secara manual.

  • cGPU versi 1.0.6 atau yang lebih baru digunakan. Untuk informasi lebih lanjut tentang cara memperbarui cGPU, lihat Perbarui versi cGPU pada sebuah node.

Perhatian

  • Jika modul isolasi cGPU sudah terinstal pada node sebelum Anda menginstal komponen cGPU, Anda harus me-restart node agar kebijakan cGPU berlaku. Untuk informasi lebih lanjut, lihat Restart sebuah instance.

    Catatan

    Untuk memeriksa apakah modul isolasi cGPU terinstal pada sebuah node, masuk ke node dan jalankan perintah cat /proc/cgpu_km/version. Jika sistem mengembalikan nomor versi cGPU, modul isolasi cGPU telah terinstal.

  • Jika modul isolasi cGPU tidak terinstal atau modul tersebut telah di-uninstall, Anda harus menginstal modul tersebut agar kebijakan cGPU berlaku.

  • Node yang memiliki fitur berbagi GPU diaktifkan dalam sebuah cluster menggunakan kebijakan cGPU yang sama.

Langkah 1: Periksa apakah komponen cGPU terinstal

Operasi yang diperlukan untuk mengonfigurasi kebijakan alokasi daya komputasi bervariasi tergantung pada apakah komponen cGPU terinstal. Anda harus memeriksa apakah komponen cGPU terinstal sebelum mengonfigurasi kebijakan alokasi daya komputasi.

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Di halaman Clusters, temukan cluster yang diinginkan dan klik namanya. Di panel navigasi kiri, pilih Applications > Helm.

  3. Di halaman Helm, periksa apakah komponen ack-ai-installer ada.

    Jika ack-ai-installer ada, komponen cGPU telah terinstal.

Langkah 2: Konfigurasikan kebijakan alokasi daya komputasi

Berikut ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi untuk berbagi GPU ketika komponen cGPU terinstal dan ketika komponen tersebut tidak terinstal.

Komponen cGPU tidak terinstal

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Di halaman Clusters, temukan cluster yang diinginkan dan klik namanya. Di panel navigasi kiri, pilih Applications > Cloud-native AI Suite.

  3. Di halaman Cloud-native AI Suite, klik Deploy.

  4. Di bagian Scheduling, pilih Scheduling Policy Extension (Batch Task Scheduling, GPU Sharing, Topology-aware GPU Scheduling), dan klik Advanced.

  5. Di halaman Parameters, ubah bidang policy, dan klik OK. policy.jpgTabel berikut menjelaskan nilai-nilai yang valid. Untuk informasi lebih lanjut, lihat Contoh penggunaan cGPU.

    Nilai

    Deskripsi

    0

    Penjadwalan fair-share. Setiap kontainer menempati time slice tetap. Proporsi time slice adalah 1/max_inst.

    1

    Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice. Proporsi time slice adalah 1/Number of containers.

    2

    Penjadwalan preemptive berbasis bobot. Ketika ALIYUN_COM_GPU_SCHD_WEIGHT disetel ke nilai lebih besar dari 1, penjadwalan preemptive berbasis bobot digunakan.

    3

    Penjadwalan persentase tetap. Daya komputasi dijadwalkan pada persentase tetap.

    4

    Penjadwalan lunak. Dibandingkan dengan penjadwalan preemptive, penjadwalan lunak mengisolasi sumber daya GPU dengan cara yang lebih lembut.

    5

    Penjadwalan built-in. Kebijakan penjadwalan built-in untuk driver GPU.

  6. Di bagian bawah halaman, klik Deploy Cloud-native AI Suite.

Komponen cGPU terinstal

  1. Jalankan perintah berikut untuk memodifikasi DaemonSet tempat modul isolasi cGPU dari komponen cGPU berjalan:

    kubectl edit daemonset cgpu-installer -nkube-system
  2. Modifikasi DaemonSet tempat modul isolasi cGPU berjalan dan simpan perubahan.

    1. Lihat versi gambar DaemonSet di bidang image.

      Pastikan bahwa versi gambar adalah 1.0.6 atau yang lebih baru. Contoh bidang image:

       image: registry-vpc.cn-hongkong.aliyuncs.com/acs/cgpu-installer:<Image version>
    2. Modifikasi bidang value.

      Di parameter containers.env, atur bidang value untuk kunci POLICY.

      #Bidang lainnya dihilangkan. 
      spec:
        containers:
        - env:
          - name: POLICY
            value: "1"
      #Bidang lainnya dihilangkan.

      Tabel berikut menjelaskan nilai-nilai dari bidang value.

      Nilai

      Deskripsi

      0

      Penjadwalan fair-share. Setiap kontainer menempati time slice tetap. Proporsi time slice adalah 1/max_inst.

      1

      Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice. Proporsi time slice adalah 1/Number of containers.

      2

      Penjadwalan preemptive berbasis bobot. Ketika ALIYUN_COM_GPU_SCHD_WEIGHT disetel ke nilai lebih besar dari 1, penjadwalan preemptive berbasis bobot digunakan.

      3

      Penjadwalan persentase tetap. Daya komputasi dijadwalkan pada persentase tetap.

      4

      Penjadwalan lunak. Dibandingkan dengan penjadwalan preemptive, penjadwalan lunak mengisolasi sumber daya GPU dengan cara yang lebih lembut.

      5

      Penjadwalan built-in. Kebijakan penjadwalan built-in untuk driver GPU.

  3. Restart node yang memiliki fitur berbagi GPU diaktifkan.

    Untuk informasi lebih lanjut, lihat Restart sebuah instance.