全部产品
Search
文档中心

Container Service for Kubernetes:Pengenalan dan catatan rilis untuk komponen ack-ai-installer

更新时间:Nov 11, 2025

ack-ai-installer adalah kumpulan Device Plugin yang meningkatkan kemampuan penjadwalan ACK Managed Cluster Pro dan ACK Edge Cluster Pro. Komponen ini berintegrasi dengan ACK Scheduler untuk melakukan penjadwalan kompleks pada sumber daya komputasi heterogen, seperti penjadwalan GPU bersama (shared GPU scheduling) dan penjadwalan yang memperhatikan topologi GPU (GPU topology-aware scheduling). ACK Scheduler merupakan sistem penjadwalan terpadu berbasis mekanisme ekstensi Kubernetes Scheduling Framework, dirancang untuk berbagai beban kerja dan sumber daya elastis. Topik ini menjelaskan informasi dasar, catatan penggunaan, serta riwayat rilis komponen ack-ai-installer.

Pengenalan komponen

ack-ai-installer berintegrasi dengan ACK Scheduler untuk menyediakan fitur penjadwalan seperti penjadwalan GPU bersama dengan isolasi dan penjadwalan yang memperhatikan topologi GPU. Saat ini, ack-ai-installer mencakup komponen-komponen berikut.

gpushare-device-plugin dan cgpu-installer

Secara default, ACK Scheduler di ACK Managed Cluster Pro dan ACK Edge Cluster Pro mendukung penjadwalan GPU khusus (dedicated GPU scheduling). ack-ai-installer (gpushare-device-plugin) berintegrasi dengan ACK Scheduler untuk mengaktifkan penjadwalan GPU bersama dan isolasi. Penjadwalan GPU bersama memungkinkan beberapa aplikasi atau proses berbagi satu kartu GPU, sehingga meningkatkan pemanfaatan sumber daya sistem. Berdasarkan penjadwalan GPU bersama tersebut, ack-ai-installer (cgpu-installer) juga terintegrasi dengan cGPU—teknologi berbagi kontainer GPU Alibaba Cloud—untuk mendukung isolasi memori GPU. Isolasi ini memisahkan aplikasi atau proses yang berbeda dalam memori GPU, mencegah gangguan antartugas, serta meningkatkan kinerja dan efisiensi sistem secara keseluruhan. Selain itu, ack-ai-installer (cgpu-installer) mendukung isolasi daya komputasi dan menyediakan berbagai kebijakan alokasi, seperti rata-rata, preemption, dan bobot, sehingga memungkinkan penjadwalan dan pemanfaatan daya komputasi GPU yang lebih detail halus. Untuk informasi selengkapnya tentang penjadwalan dan isolasi GPU bersama, termasuk metode instalasi dan skenario penggunaannya, lihat Kelola komponen penjadwalan GPU bersama dan Alokasikan daya komputasi menggunakan penjadwalan GPU bersama.

gputopo-device-plugin

Bekerja sama dengan ACK Scheduler, ack-ai-installer (gputopo-device-plugin) mengaktifkan penjadwalan yang memperhatikan topologi GPU. Fitur ini memilih kombinasi GPU pada suatu node yang memberikan kecepatan pelatihan optimal. Untuk informasi selengkapnya tentang penjadwalan yang memperhatikan topologi GPU, termasuk prosedur instalasi dan skenario penggunaannya, lihat Penjadwalan yang memperhatikan topologi GPU.

Catatan penggunaan

  • Anda hanya dapat menginstal komponen ack-ai-installer pada ACK Managed Cluster Pro dan ACK Edge Cluster Pro melalui halaman Cloud-native AI Suite di konsol. Komponen ini telah dipra-instal di kluster managed ACK Lingjun.

  • Jika versi komponen ack-ai-installer lebih awal dari 1.12.0, kluster versi 1.18.8 dan yang lebih baru didukung.

  • Jika versi komponen ack-ai-installer 1.12.0 atau lebih baru, hanya kluster versi 1.20 dan yang lebih baru yang didukung.

Catatan rilis

Agustus 2025

Versi

Perubahan

Waktu Modifikasi

Dampak

1.12.8

Pembaruan pada cGPU 1.5.20:

  • Memperbaiki masalah langka konflik ID instans cGPU yang terjadi selama pembuatan pod secara konkuren.

4 Agustus 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Juli 2025

Versi

Perubahan

Tanggal rilis

Dampak

1.12.7

  • Menambahkan cGPU ke versi 1.5.19.

  • gpushare-device-plugin: Memperbaiki masalah di mana plugin tidak dapat mencoba ulang setelah panggilan NVML gagal saat startup.

17 Juli 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

1.12.6

Pembaruan pada cGPU 1.5.19:

  • Menambahkan dukungan untuk citra OS container-optimized Alibaba Cloud Linux 3.

  • Menambahkan dukungan untuk memodifikasi alokasi daya komputasi menggunakan time slicing (kebijakan 5).

  • Memperbaiki masalah di mana pod multi-GPU gagal dibuat di lingkungan cgroup v2.

  • Menambahkan dukungan untuk alokasi daya komputasi (kebijakan 0-4) untuk ebmgn9t.

16 Juli 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Juni 2025

Versi

Perubahan

Waktu Modifikasi

Dampak

1.12.5

  • Menambahkan cGPU ke versi 1.5.18.

  • Memperbaiki masalah di mana pod GPU pertama pada node cGPU gagal dimulai dalam beberapa skenario.

23 Juni 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

1.12.4

  • Menambahkan cGPU ke versi 1.5.17, yang mendukung vLLM 0.6.6 dan versi sebelumnya.

  • cgpu-installer: Menambahkan dukungan instalasi pada CentOS 7 dan Alibaba Cloud Linux 2.

19 Juni 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Mei 2025

Versi

Perubahan

Waktu Modifikasi

Dampak

1.12.3

  • Menambahkan cGPU ke versi 1.5.16.

  • cgpu-installer: Menambahkan fitur percobaan ulang instalasi.

14 Mei 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Maret 2025

Versi

Perubahan

Waktu Modifikasi

Dampak

1.12.2

  • Menambahkan cGPU ke versi 1.5.15.

  • cgpu-installer: Menambahkan afinitas node untuk mencegah penjadwalan ke Node Lingjun.

17 Maret 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Februari 2025

Versi

Perubahan

Tanggal rilis

Dampak

1.12.1

  • Menambahkan cGPU ke versi 1.5.15.

  • gpushare-device-plugin: Menambahkan fitur pemeriksaan kesehatan sumber daya node.

18 Februari 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Januari 2025

Versi

Perubahan

Tanggal rilis

Dampak

1.12.0

  • Merilis cGPU 1.5.15, yang mendukung instalasi cGPU dalam bentuk kontainer.

  • Membatasi hak istimewa (privileged permissions) pada kontainer cgpu-installer.

  • Menambahkan pemeriksaan awal (precheck) sebelum instalasi cGPU. Jika pemeriksaan awal gagal, event Kubernetes `CGPUInstallFailed` akan dilaporkan.

  • Mulai dari versi ini, komponen ack-ai-installer hanya mendukung versi kluster 1.20 dan yang lebih baru.

3 Januari 2025

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

November 2024

Versi

Perubahan

Terakhir Dimodifikasi

Dampak

1.11.1

Merilis cGPU 1.5.13. Versi ini memperbaiki masalah langka crash kernel yang dapat disebabkan oleh proses kontainer sisa.

19 November 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

1.10.1

Merilis cGPU 1.5.12. Versi ini memperbaiki masalah di mana isolasi memori GPU gagal untuk beberapa API CUDA dengan versi driver baru seperti 535.

7 November 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

September 2024

Versi

Perubahan

Waktu Modifikasi

Dampak

1.9.16

  • Menambahkan cGPU ke versi 1.5.11.

  • Memindahkan proses instalasi cGPU ke init container.

26 September 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

1.9.15

Merilis cGPU 1.5.11. Versi ini memperbaiki masalah terkait decoding.

19 September 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Agustus 2024

Versi

Perubahan

Waktu Modifikasi

Dampak

1.9.14

  • Memperbaiki beberapa masalah terkait penggunaan MPS Daemon.

  • Merilis cGPU 1.5.10. Versi ini menambahkan Kebijakan 6 untuk pemisahan proporsional daya komputasi dan memori GPU.

21 Agustus 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

1.9.14

Merilis cGPU 1.5.9. Versi ini menambahkan Kebijakan 6 untuk pemisahan proporsional daya komputasi dan memori GPU.

13 Agustus 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Mei 2024

Versi

Perubahan

Waktu Modifikasi

Dampak

1.9.11

Merilis cGPU 1.5.7. Versi ini menambahkan dukungan untuk GPU seri L dan driver GPU versi 550 serta yang lebih baru.

14 Mei 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

1.9.10

Merilis cGPU 1.5.7. Versi ini memperbaiki masalah di mana cgpu policy set tidak berlaku.

9 Mei 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Januari 2024

Versi

Perubahan

Terakhir Dimodifikasi

Dampak

1.8.8

Merilis cGPU 1.5.6. Versi ini memperkenalkan kebijakan baru cGPU License Server.

4 Januari 2024

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Desember 2023

Versi

Perubahan

Terakhir Dimodifikasi

Dampak

1.8.7

  • Menambahkan cGPU ke versi 1.5.5.

  • Menambahkan dukungan untuk penjadwalan GPU bersama dengan MPS.

20 Desember 2023

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

November 2023

Versi

Perubahan

Waktu Modifikasi

Dampak

1.8.5

Merilis cGPU 1.5.5. Versi ini memperbaiki masalah Kernel Panic yang dipicu oleh cgpu-procfs.

23 November 2023

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Agustus 2023

Versi

Perubahan

Waktu Modifikasi

Dampak

1.8.2

  • Menambahkan cGPU ke versi 1.5.3.

  • Menambahkan dukungan untuk partisi multi-instans GPU (MIG) dinamis.

  • Memperbaiki masalah di mana device-plugin-recover berulang kali dimulai ulang.

29 Agustus 2023

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

Juli 2023

Versi

Perubahan

Waktu Modifikasi

Dampak

1.7.7

  • Merilis cGPU 1.5.3.

  • Memperbaiki masalah tautan simbolik yang salah untuk nvidia-container-toolkit dan nvidia-container-runtime-hook.

  • Memperbaiki masalah ketidakcocokan dengan versi driver yang lebih baru (470.182.03, 515.105.01, 525.105.17, dan yang lebih baru).

4 Juli 2023

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

April 2023

Versi

Perubahan

Waktu Modifikasi

Dampak

1.7.6

  • Merilis cGPU 1.5.2. Versi ini memperbaiki masalah izin systemd cgroup yang salah.

  • Menyelesaikan masalah kompatibilitas cGPU dengan versi driver 5xx dan yang lebih baru.

  • Menyelesaikan masalah dukungan cGPU dengan nvidia-container-runtime versi 1.10 dan yang lebih baru.

  • Memperbaiki masalah dukungan cGPU 1.5.1 pada containerd.

26 April 2023

Peningkatan ini tidak memengaruhi layanan yang sudah ada.

1.7.5

Merilis cGPU 1.5.2.

18 April 2023

Peningkatan ini tidak memengaruhi layanan yang sudah ada.