All Products
Search
Document Center

Container Service for Kubernetes:ack-ai-installer: Pengenalan dan catatan perubahan

Last Updated:Mar 18, 2026

ack-ai-installer adalah kumpulan Device Plugin yang meningkatkan kemampuan penjadwalan ACK Managed Cluster Pro Edition dan ACK Edge Cluster Pro Edition. Komponen ini bekerja sama dengan ACK Scheduler—sistem penjadwalan terpadu berbasis ekstensi Kubernetes Scheduling Framework—untuk melakukan penjadwalan kompleks pada resource komputasi heterogen, termasuk penjadwalan GPU bersama (shared GPU scheduling) dan penjadwalan yang memperhatikan topologi GPU (GPU topology-aware scheduling). Topik ini menjelaskan informasi dasar, petunjuk penggunaan, serta catatan perubahan untuk komponen ack-ai-installer.

Ikhtisar komponen

Saat digunakan bersama ACK Scheduler, ack-ai-installer menyediakan kemampuan penjadwalan seperti penjadwalan GPU bersama dengan isolasi berbagi dan penjadwalan yang memperhatikan topologi GPU. Saat ini, ack-ai-installer mencakup komponen-komponen berikut.

gpushare-device-plugin dan cgpu-installer

Secara default, ACK Scheduler di ACK Managed Cluster Pro Edition dan ACK Edge Cluster Pro Edition mendukung penjadwalan GPU eksklusif. Komponen gpushare-device-plugin dari ack-ai-installer bekerja sama dengan ACK Scheduler untuk mengaktifkan penjadwalan GPU bersama dan isolasi berbagi. Penjadwalan GPU bersama memungkinkan beberapa aplikasi atau proses berbagi satu kartu GPU guna meningkatkan pemanfaatan resource sistem. Di atas penjadwalan GPU bersama, komponen cgpu-installer dari ack-ai-installer terintegrasi dengan cGPU, teknologi berbagi kontainer GPU milik Alibaba Cloud. Integrasi ini mendukung isolasi memori GPU, yang memisahkan aplikasi atau proses yang berbeda dalam memori GPU satu sama lain, sehingga mencegah gangguan antartugas serta meningkatkan kinerja dan efisiensi sistem secara keseluruhan. Selain itu, komponen cgpu-installer mendukung isolasi daya komputasi GPU dan menyediakan kebijakan alokasi berbeda, seperti rata-rata, preemption, dan weight, yang memungkinkan penjadwalan dan penggunaan resource komputasi GPU yang lebih detail halus. Untuk informasi selengkapnya mengenai penjadwalan GPU bersama dan isolasi, termasuk metode instalasi dan skenario penggunaannya, lihat Manage the shared GPU scheduling component dan Allocate computing power using shared GPU scheduling.

gputopo-device-plugin

Saat digunakan bersama ACK Scheduler, komponen gputopo-device-plugin dari ack-ai-installer mendukung penjadwalan yang memperhatikan topologi GPU. Komponen ini memilih kombinasi GPU pada suatu node yang memberikan kecepatan pelatihan optimal. Untuk informasi selengkapnya mengenai penjadwalan yang memperhatikan topologi GPU, termasuk langkah-langkah instalasi dan skenario penggunaannya, lihat GPU topology-aware scheduling.

Catatan penggunaan

  • Anda hanya dapat menginstal komponen ack-ai-installer di ACK Managed Cluster Pro Edition dan ACK Edge Cluster Pro Edition melalui halaman Cloud-native AI Suite di Konsol. Komponen ini telah dipra-instal di kluster managed ACK Lingjun.

  • Jika versi komponen ack-ai-installer lebih awal dari 1.12.0, kluster versi 1.18.8 dan yang lebih baru didukung.

  • Jika versi komponen ack-ai-installer 1.12.0 atau lebih baru, hanya kluster versi 1.20 dan yang lebih baru yang didukung.

Catatan perubahan

Maret 2026

Versi

Perubahan

Terakhir Dimodifikasi

Dampak

1.13.1

  • cGPU:

    • Mendukung Ubuntu 24.04 dengan kernel 6.x.

    • Mendukung skenario multi-kartu NVSwitch. Mendukung penjadwalan kontainer cGPU menggunakan MPS Daemon.

    • Memperbaiki masalah di mana penggunaan memori GPU ditampilkan secara tidak akurat untuk kontainer multi-kartu.

    • Mendukung tipe instans ecs.gn8ga dan ecs.ebmgn8ga.

  • gpushare-device-plugin:

    • Mendukung pelaporan topologi NUMA node.

    • Memperbaiki masalah di mana nilai memori GPU yang ditentukan tidak akurat dalam skenario MPS.

    • Menyesuaikan direktori kerja ke /var/run/nvidia-gpu/nvidia-mps untuk skenario MPS.

    • Memperbaiki masalah di mana device plugin restart karena timeout liveness probe dalam skenario MPS.

16 Maret 2026

Peningkatan ini tidak memengaruhi layanan yang ada.

Oktober 2025

Versi

Perubahan

Waktu Perubahan

Dampak

1.13.0

  • gpushare-device-plugin:

    • Mendukung kueri Pod dalam status pending dari kubelet untuk mengurangi beban pada server API.

29 Oktober 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

Agustus 2025

Nomor Versi

Perubahan

Waktu Modifikasi

Dampak

1.12.8

Pembaruan cGPU 1.5.20:

  • Memperbaiki masalah langka konflik ID instans cGPU yang terjadi selama startup Pod secara konkuren.

04 Agustus 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

Juli 2025

Versi

Perubahan

Waktu Perubahan

Dampak

1.12.7

  • cGPU diperbarui ke versi 1.5.19.

  • gpushare-device-plugin: Memperbaiki masalah di mana retry gagal jika panggilan NVML gagal saat startup.

17 Juli 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

1.12.6

Pembaruan cGPU 1.5.19:

  • Mendukung citra OS container-optimized Alibaba Cloud Linux 3.

  • Mendukung modifikasi alokasi daya komputasi menggunakan time slice (policy5).

  • Memperbaiki masalah di mana Pod multi-kartu gagal dibuat dalam cgroup v2.

  • ebmgn9t mendukung alokasi daya komputasi (Kebijakan 0–4).

16 Juli 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

Juni 2025

Versi

Perubahan

Waktu Perubahan

Dampak

1.12.5

  • cGPU diperbarui ke versi 1.5.18.

  • Memperbaiki masalah di mana Pod GPU pertama gagal dimulai pada node cGPU dalam beberapa skenario.

23 Juni 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

1.12.4

  • cGPU diperbarui ke versi 1.5.17 dan mendukung vLLM 0.6.6 serta versi sebelumnya.

  • cgpu-installer dapat diinstal pada CentOS 7 dan Alibaba Cloud Linux 2.

19 Juni 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

Mei 2025

Nomor Versi

Perubahan

Waktu Perubahan

Dampak

1.12.3

  • cGPU diperbarui ke versi 1.5.16.

  • Menambahkan fitur retry ke cgpu-installer.

14 Mei 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

Maret 2025

Versi

Perubahan

Waktu Perubahan

Dampak

1.12.2

  • cGPU diperbarui ke versi 1.5.15.

  • Menambahkan node affinity ke cgpu-installer untuk mencegah penjadwalannya ke Node Lingjun.

17 Maret 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

Februari 2025

Versi

Perubahan

Waktu Pembaruan

Dampak

1.12.1

  • cGPU diperbarui ke versi 1.5.15.

  • Menambahkan fitur pemeriksaan kesehatan untuk resource node ke gpushare-device-plugin.

18 Februari 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

Januari 2025

Versi

Perubahan

Waktu Modifikasi

Dampak

1.12.0

  • Merilis cGPU 1.5.15, yang mendukung instalasi cGPU dalam bentuk kontainer.

  • Mengurangi hak istimewa (privilege) kontainer cgpu-installer.

  • Menambahkan pemeriksaan awal (precheck) sebelum instalasi cGPU. Jika pemeriksaan awal gagal, event Kubernetes `CGPUInstallFailed` akan dilaporkan.

  • Mulai dari versi ini, komponen ack-ai-installer hanya mendukung versi kluster 1.20 dan yang lebih baru.

03 Januari 2025

Peningkatan ini tidak memengaruhi layanan yang ada.

November 2024

Nomor Versi

Perubahan

Waktu Perubahan

Dampak

1.11.1

Merilis cGPU 1.5.13. Memperbaiki masalah langka crash kernel yang mungkin disebabkan oleh proses kontainer sisa.

19 November 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

1.10.1

Merilis cGPU 1.5.12. Memperbaiki masalah di mana isolasi memori GPU gagal untuk beberapa API CUDA pada versi driver baru seperti 535.

07 November 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

September 2024

Nomor Versi

Perubahan

Waktu Modifikasi

Dampak

1.9.16

  • cGPU diperbarui ke versi 1.5.11.

  • Memindahkan proses instalasi cGPU ke init container.

26 September 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

1.9.15

Merilis cGPU 1.5.11. Memperbaiki masalah terkait decoding.

19 September 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

Agustus 2024

Versi

Perubahan

Waktu Perubahan

Dampak

1.9.14

  • Memperbaiki beberapa masalah terkait penggunaan MPS Daemon.

  • Merilis cGPU 1.5.10. Menambahkan kebijakan 6 untuk membagi daya komputasi dan memori GPU secara proporsional.

21 Agustus 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

1.9.14

Merilis cGPU 1.5.9. Menambahkan kebijakan 6 untuk membagi daya komputasi dan memori GPU secara proporsional.

13 Agustus 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

Mei 2024

Versi

Perubahan

Waktu Modifikasi

Dampak

1.9.11

Merilis cGPU 1.5.7. Mendukung GPU seri L dan driver GPU versi 550 serta yang lebih baru.

14 Mei 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

1.9.10

Merilis cGPU 1.5.7. Memperbaiki masalah di mana perintah cgpu policy set tidak berlaku.

09 Mei 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

Januari 2024

Versi

Perubahan

Waktu Perubahan

Dampak

1.8.8

Merilis cGPU 1.5.6. Kebijakan baru Server Lisensi cGPU dirilis.

04 Januari 2024

Peningkatan ini tidak memengaruhi layanan yang ada.

Desember 2023

Versi

Perubahan

Waktu Modifikasi

Dampak

1.8.7

  • cGPU diperbarui ke versi 1.5.5.

  • Mendukung penjadwalan GPU bersama untuk MPS.

20 Desember 2023

Peningkatan ini tidak memengaruhi layanan yang ada.

November 2023

Versi

Perubahan

Waktu Perubahan

Dampak

1.8.5

Merilis cGPU 1.5.5. Memperbaiki masalah Kernel Panic yang dipicu oleh cgpu-procfs.

23 November 2023

Peningkatan ini tidak memengaruhi layanan yang ada.

Agustus 2023

Versi

Perubahan

Waktu Perubahan

Dampak

1.8.2

  • cGPU diperbarui ke versi 1.5.3.

  • Mendukung partisi multi-instans GPU (MIG) dinamis.

  • Memperbaiki masalah di mana device-plugin-recover berulang kali restart.

29 Agustus 2023

Peningkatan ini tidak memengaruhi layanan yang ada.

Juli 2023

Versi

Perubahan

Waktu Perubahan

Dampak

1.7.7

  • Merilis cGPU 1.5.3.

  • Memperbaiki masalah tautan simbolik yang salah untuk nvidia-container-toolkit dan nvidia-container-runtime-hook.

  • Memperbaiki masalah ketidakcocokan dengan versi driver yang lebih baru, seperti 470.182.03, 515.105.01, 525.105.17, dan yang lebih baru.

04 Juli 2023

Peningkatan ini tidak memengaruhi layanan yang ada.

April 2023

Versi

Perubahan

Waktu Modifikasi

Dampak

1.7.6

  • Merilis cGPU 1.5.2. Memperbaiki masalah izin systemd cgroup yang salah.

  • Menambahkan dukungan untuk versi driver di atas 5XX di cGPU.

  • Menambahkan dukungan untuk nvidia-container-runtime 1.10 dan yang lebih baru di cGPU.

  • Memperbaiki masalah dukungan cGPU 1.5.1 pada containerd.

26 April 2023

Peningkatan ini tidak memengaruhi layanan yang ada.

1.7.5

Merilis cGPU 1.5.2.

18 April 2023

Peningkatan ini tidak memengaruhi layanan yang ada.