All Products
Search
Document Center

Container Service for Kubernetes:Konfigurasikan Kebijakan Penjadwalan Daya Komputasi cGPU untuk Penjadwalan GPU Bersama

Last Updated:Mar 25, 2026

Kluster ACK yang dikelola edisi Pro mendukung fitur GPU bersama. Topik ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi GPU bersama dengan mengatur kebijakan komponen GPU bersama.

Untuk pengenalan tentang cGPU, lihat Apa itu cGPU.

Prasyarat

  • Anda telah membuat kluster edisi ACK Pro dengan versi Kubernetes 1.18.8 atau lebih baru. Untuk prosedur peningkatan Kubernetes, lihat dokumen referensi.

  • Versi cGPU Anda adalah 1.0.6 atau lebih baru. Untuk prosedur peningkatan cGPU, lihat dokumen referensi.

Catatan

  • Jika modul isolasi cGPU sudah terinstal pada node, Anda harus me-restart node tersebut setelah menginstal komponen GPU bersama agar kebijakan berlaku. Untuk informasi selengkapnya, lihat dokumen referensi.

    Catatan

    Anda dapat login ke node dan menjalankan perintah cat /proc/cgpu_km/version untuk memeriksa apakah modul isolasi cGPU telah terinstal. Jika output perintah menampilkan nomor versi cGPU, berarti modul isolasi cGPU telah terinstal.

  • Jika node Anda belum memiliki modul isolasi cGPU yang terinstal atau telah di-uninstall, kebijakan akan langsung berlaku setelah Anda menginstal komponen GPU bersama.

  • Node GPU bersama dalam kluster yang sama hanya dapat menggunakan satu kebijakan.

Langkah 1: Periksa Apakah Komponen GPU Bersama Telah Terinstal

Saat mengonfigurasi kebijakan alokasi daya komputasi GPU bersama, metode operasinya berbeda tergantung pada apakah komponen GPU bersama telah terinstal. Oleh karena itu, pastikan terlebih dahulu apakah komponen tersebut telah terinstal di kluster.

  1. Login ke Container Service Management Console . Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi sebelah kiri, klik Applications > Helm.

  3. Pada halaman Helm, periksa daftar komponen untuk komponen ack-ai-installer.

    Jika komponen ack-ai-installer ada, berarti komponen GPU bersama telah terinstal. Jika tidak, berarti belum terinstal.

Langkah 2: Konfigurasikan Kebijakan Alokasi Daya Komputasi GPU Bersama

Bagian ini menjelaskan cara mengonfigurasi kebijakan alokasi daya komputasi GPU bersama untuk dua skenario: saat komponen GPU bersama belum terinstal atau sudah terinstal.

Komponen GPU Bersama Belum Terinstal

  1. Login ke Container Service Management Console . Di panel navigasi sebelah kiri, klik Clusters.

  2. Pada halaman Clusters, klik nama kluster Anda. Di panel navigasi sebelah kiri, klik Applications > Cloud-native AI Suite.

  3. Pada halaman Cloud-native AI Suite, klik Deploy.

  4. Di area Scheduling, pilih Scheduling Policy Extension (Batch Task Scheduling, GPU Sharing, Topology-aware GPU Scheduling). Lalu, klik Advanced di sebelah kanan.

  5. Pada halaman Parameters, ubah bidang policy. Kemudian, klik OK.policy.jpgUntuk informasi selengkapnya tentang nilai kebijakan, lihat Contoh Penggunaan Layanan cGPU.

    Nilai

    Deskripsi

    0

    Penjadwalan rata-rata. Setiap kontainer menempati time slice tetap, dan rasio time slice-nya adalah 1/max_inst.

    1

    Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice, dan rasio time slice-nya adalah 1/current_number_of_containers.

    2

    Penjadwalan preemptive berbobot. Saat nilai ALIYUN_COM_GPU_SCHD_WEIGHT lebih besar dari 1, penjadwalan preemptive berbobot akan digunakan secara otomatis.

    3

    Penjadwalan daya komputasi tetap. Digunakan untuk persentase daya komputasi tetap.

    4

    Penjadwalan daya komputasi lemah. Isolasi lebih lemah dibandingkan penjadwalan preemptive.

    5

    Penjadwalan native. Ini adalah metode penjadwalan dari driver GPU itu sendiri.

  6. Di bagian bawah halaman, klik Deploy Cloud-native AI Suite.

Komponen GPU Bersama Sudah Terinstal

  1. Jalankan perintah berikut untuk mengedit DaemonSet yang menginstal modul isolasi cGPU dalam komponen GPU bersama.

    kubectl edit daemonset cgpu-installer -nkube-system
  2. Modifikasi dan simpan DaemonSet yang menginstal modul isolasi cGPU.

    1. Periksa versi gambar DaemonSet melalui bidang image.

      Pastikan versi gambarnya v1.0.6 atau lebih baru. Contoh bidang image adalah sebagai berikut:

       image: registry-vpc.cn-hongkong.aliyuncs.com/acs/cgpu-installer:<Image Version>
    2. Ubah nilai value.

      Di bawah parameter containers.env, ubah value dari POLICY menjadi nilai kebijakan target.

      # Bidang lainnya dihilangkan.
      spec:
        containers:
        - env:
          - name: POLICY
            value: "1"
      # Bidang lainnya dihilangkan.

      Deskripsi nilai untuk value adalah sebagai berikut.

      Nilai

      Deskripsi

      0

      Penjadwalan rata-rata. Setiap kontainer menempati time slice tetap, dan rasio time slice-nya adalah 1/max_inst.

      1

      Penjadwalan preemptive. Setiap kontainer menempati sebanyak mungkin time slice, dan rasio time slice-nya adalah 1/current_number_of_containers.

      2

      Penjadwalan preemptive berbobot. Saat nilai ALIYUN_COM_GPU_SCHD_WEIGHT lebih besar dari 1, penjadwalan preemptive berbobot akan digunakan secara otomatis.

      3

      Penjadwalan daya komputasi tetap. Digunakan untuk persentase daya komputasi tetap.

      4

      Penjadwalan daya komputasi lemah. Isolasi lebih lemah dibandingkan penjadwalan preemptive.

      5

      Penjadwalan native. Ini adalah metode penjadwalan dari driver GPU itu sendiri.

  3. Restart instans node GPU bersama. Untuk informasi selengkapnya, lihat dokumen referensi.