ack-ai-installer adalah kumpulan Device Plugin yang meningkatkan kemampuan penjadwalan ACK Managed Cluster Pro Edition dan ACK Edge Cluster Pro Edition. Komponen ini bekerja sama dengan ACK Scheduler—sistem penjadwalan terpadu berbasis ekstensi Kubernetes Scheduling Framework—untuk melakukan penjadwalan kompleks pada resource komputasi heterogen, termasuk penjadwalan GPU bersama (shared GPU scheduling) dan penjadwalan yang memperhatikan topologi GPU (GPU topology-aware scheduling). Topik ini menjelaskan informasi dasar, petunjuk penggunaan, serta catatan perubahan untuk komponen ack-ai-installer.
Ikhtisar komponen
Saat digunakan bersama ACK Scheduler, ack-ai-installer menyediakan kemampuan penjadwalan seperti penjadwalan GPU bersama dengan isolasi berbagi dan penjadwalan yang memperhatikan topologi GPU. Saat ini, ack-ai-installer mencakup komponen-komponen berikut.
gpushare-device-plugin dan cgpu-installer
Secara default, ACK Scheduler di ACK Managed Cluster Pro Edition dan ACK Edge Cluster Pro Edition mendukung penjadwalan GPU eksklusif. Komponen gpushare-device-plugin dari ack-ai-installer bekerja sama dengan ACK Scheduler untuk mengaktifkan penjadwalan GPU bersama dan isolasi berbagi. Penjadwalan GPU bersama memungkinkan beberapa aplikasi atau proses berbagi satu kartu GPU guna meningkatkan pemanfaatan resource sistem. Di atas penjadwalan GPU bersama, komponen cgpu-installer dari ack-ai-installer terintegrasi dengan cGPU, teknologi berbagi kontainer GPU milik Alibaba Cloud. Integrasi ini mendukung isolasi memori GPU, yang memisahkan aplikasi atau proses yang berbeda dalam memori GPU satu sama lain, sehingga mencegah gangguan antartugas serta meningkatkan kinerja dan efisiensi sistem secara keseluruhan. Selain itu, komponen cgpu-installer mendukung isolasi daya komputasi GPU dan menyediakan kebijakan alokasi berbeda, seperti rata-rata, preemption, dan weight, yang memungkinkan penjadwalan dan penggunaan resource komputasi GPU yang lebih detail halus. Untuk informasi selengkapnya mengenai penjadwalan GPU bersama dan isolasi, termasuk metode instalasi dan skenario penggunaannya, lihat Manage the shared GPU scheduling component dan Allocate computing power using shared GPU scheduling.
gputopo-device-plugin
Saat digunakan bersama ACK Scheduler, komponen gputopo-device-plugin dari ack-ai-installer mendukung penjadwalan yang memperhatikan topologi GPU. Komponen ini memilih kombinasi GPU pada suatu node yang memberikan kecepatan pelatihan optimal. Untuk informasi selengkapnya mengenai penjadwalan yang memperhatikan topologi GPU, termasuk langkah-langkah instalasi dan skenario penggunaannya, lihat GPU topology-aware scheduling.
Catatan penggunaan
Anda hanya dapat menginstal komponen ack-ai-installer di ACK Managed Cluster Pro Edition dan ACK Edge Cluster Pro Edition melalui halaman Cloud-native AI Suite di Konsol. Komponen ini telah dipra-instal di kluster managed ACK Lingjun.
Jika versi komponen ack-ai-installer lebih awal dari 1.12.0, kluster versi 1.18.8 dan yang lebih baru didukung.
Jika versi komponen ack-ai-installer 1.12.0 atau lebih baru, hanya kluster versi 1.20 dan yang lebih baru yang didukung.
Catatan perubahan
Maret 2026
Versi | Perubahan | Terakhir Dimodifikasi | Dampak |
1.13.1 |
| 16 Maret 2026 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Oktober 2025
Versi | Perubahan | Waktu Perubahan | Dampak |
1.13.0 |
| 29 Oktober 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Agustus 2025
Nomor Versi | Perubahan | Waktu Modifikasi | Dampak |
1.12.8 | Pembaruan cGPU 1.5.20:
| 04 Agustus 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Juli 2025
Versi | Perubahan | Waktu Perubahan | Dampak |
1.12.7 |
| 17 Juli 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
1.12.6 | Pembaruan cGPU 1.5.19:
| 16 Juli 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Juni 2025
Versi | Perubahan | Waktu Perubahan | Dampak |
1.12.5 |
| 23 Juni 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
1.12.4 |
| 19 Juni 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Mei 2025
Nomor Versi | Perubahan | Waktu Perubahan | Dampak |
1.12.3 |
| 14 Mei 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Maret 2025
Versi | Perubahan | Waktu Perubahan | Dampak |
1.12.2 |
| 17 Maret 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Februari 2025
Versi | Perubahan | Waktu Pembaruan | Dampak |
1.12.1 |
| 18 Februari 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Januari 2025
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.12.0 |
| 03 Januari 2025 | Peningkatan ini tidak memengaruhi layanan yang ada. |
November 2024
Nomor Versi | Perubahan | Waktu Perubahan | Dampak |
1.11.1 | Merilis cGPU 1.5.13. Memperbaiki masalah langka crash kernel yang mungkin disebabkan oleh proses kontainer sisa. | 19 November 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
1.10.1 | Merilis cGPU 1.5.12. Memperbaiki masalah di mana isolasi memori GPU gagal untuk beberapa API CUDA pada versi driver baru seperti 535. | 07 November 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
September 2024
Nomor Versi | Perubahan | Waktu Modifikasi | Dampak |
1.9.16 |
| 26 September 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
1.9.15 | Merilis cGPU 1.5.11. Memperbaiki masalah terkait decoding. | 19 September 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Agustus 2024
Versi | Perubahan | Waktu Perubahan | Dampak |
1.9.14 |
| 21 Agustus 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
1.9.14 | Merilis cGPU 1.5.9. Menambahkan kebijakan 6 untuk membagi daya komputasi dan memori GPU secara proporsional. | 13 Agustus 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Mei 2024
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.9.11 | Merilis cGPU 1.5.7. Mendukung GPU seri L dan driver GPU versi 550 serta yang lebih baru. | 14 Mei 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
1.9.10 | Merilis cGPU 1.5.7. Memperbaiki masalah di mana perintah | 09 Mei 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Januari 2024
Versi | Perubahan | Waktu Perubahan | Dampak |
1.8.8 | Merilis cGPU 1.5.6. Kebijakan baru Server Lisensi cGPU dirilis. | 04 Januari 2024 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Desember 2023
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.8.7 |
| 20 Desember 2023 | Peningkatan ini tidak memengaruhi layanan yang ada. |
November 2023
Versi | Perubahan | Waktu Perubahan | Dampak |
1.8.5 | Merilis cGPU 1.5.5. Memperbaiki masalah Kernel Panic yang dipicu oleh | 23 November 2023 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Agustus 2023
Versi | Perubahan | Waktu Perubahan | Dampak |
1.8.2 |
| 29 Agustus 2023 | Peningkatan ini tidak memengaruhi layanan yang ada. |
Juli 2023
Versi | Perubahan | Waktu Perubahan | Dampak |
1.7.7 |
| 04 Juli 2023 | Peningkatan ini tidak memengaruhi layanan yang ada. |
April 2023
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.7.6 |
| 26 April 2023 | Peningkatan ini tidak memengaruhi layanan yang ada. |
1.7.5 | Merilis cGPU 1.5.2. | 18 April 2023 | Peningkatan ini tidak memengaruhi layanan yang ada. |