ack-ai-installer adalah kumpulan Device Plugin yang meningkatkan kemampuan penjadwalan ACK Managed Cluster Pro dan ACK Edge Cluster Pro. Komponen ini berintegrasi dengan ACK Scheduler untuk melakukan penjadwalan kompleks pada sumber daya komputasi heterogen, seperti penjadwalan GPU bersama (shared GPU scheduling) dan penjadwalan yang memperhatikan topologi GPU (GPU topology-aware scheduling). ACK Scheduler merupakan sistem penjadwalan terpadu berbasis mekanisme ekstensi Kubernetes Scheduling Framework, dirancang untuk berbagai beban kerja dan sumber daya elastis. Topik ini menjelaskan informasi dasar, catatan penggunaan, serta riwayat rilis komponen ack-ai-installer.
Pengenalan komponen
ack-ai-installer berintegrasi dengan ACK Scheduler untuk menyediakan fitur penjadwalan seperti penjadwalan GPU bersama dengan isolasi dan penjadwalan yang memperhatikan topologi GPU. Saat ini, ack-ai-installer mencakup komponen-komponen berikut.
gpushare-device-plugin dan cgpu-installer
Secara default, ACK Scheduler di ACK Managed Cluster Pro dan ACK Edge Cluster Pro mendukung penjadwalan GPU khusus (dedicated GPU scheduling). ack-ai-installer (gpushare-device-plugin) berintegrasi dengan ACK Scheduler untuk mengaktifkan penjadwalan GPU bersama dan isolasi. Penjadwalan GPU bersama memungkinkan beberapa aplikasi atau proses berbagi satu kartu GPU, sehingga meningkatkan pemanfaatan sumber daya sistem. Berdasarkan penjadwalan GPU bersama tersebut, ack-ai-installer (cgpu-installer) juga terintegrasi dengan cGPU—teknologi berbagi kontainer GPU Alibaba Cloud—untuk mendukung isolasi memori GPU. Isolasi ini memisahkan aplikasi atau proses yang berbeda dalam memori GPU, mencegah gangguan antartugas, serta meningkatkan kinerja dan efisiensi sistem secara keseluruhan. Selain itu, ack-ai-installer (cgpu-installer) mendukung isolasi daya komputasi dan menyediakan berbagai kebijakan alokasi, seperti rata-rata, preemption, dan bobot, sehingga memungkinkan penjadwalan dan pemanfaatan daya komputasi GPU yang lebih detail halus. Untuk informasi selengkapnya tentang penjadwalan dan isolasi GPU bersama, termasuk metode instalasi dan skenario penggunaannya, lihat Kelola komponen penjadwalan GPU bersama dan Alokasikan daya komputasi menggunakan penjadwalan GPU bersama.
gputopo-device-plugin
Bekerja sama dengan ACK Scheduler, ack-ai-installer (gputopo-device-plugin) mengaktifkan penjadwalan yang memperhatikan topologi GPU. Fitur ini memilih kombinasi GPU pada suatu node yang memberikan kecepatan pelatihan optimal. Untuk informasi selengkapnya tentang penjadwalan yang memperhatikan topologi GPU, termasuk prosedur instalasi dan skenario penggunaannya, lihat Penjadwalan yang memperhatikan topologi GPU.
Catatan penggunaan
Anda hanya dapat menginstal komponen ack-ai-installer pada ACK Managed Cluster Pro dan ACK Edge Cluster Pro melalui halaman Cloud-native AI Suite di konsol. Komponen ini telah dipra-instal di kluster managed ACK Lingjun.
Jika versi komponen ack-ai-installer lebih awal dari 1.12.0, kluster versi 1.18.8 dan yang lebih baru didukung.
Jika versi komponen ack-ai-installer 1.12.0 atau lebih baru, hanya kluster versi 1.20 dan yang lebih baru yang didukung.
Catatan rilis
Agustus 2025
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.12.8 | Pembaruan pada cGPU 1.5.20:
| 4 Agustus 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Juli 2025
Versi | Perubahan | Tanggal rilis | Dampak |
1.12.7 |
| 17 Juli 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
1.12.6 | Pembaruan pada cGPU 1.5.19:
| 16 Juli 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Juni 2025
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.12.5 |
| 23 Juni 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
1.12.4 |
| 19 Juni 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Mei 2025
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.12.3 |
| 14 Mei 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Maret 2025
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.12.2 |
| 17 Maret 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Februari 2025
Versi | Perubahan | Tanggal rilis | Dampak |
1.12.1 |
| 18 Februari 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Januari 2025
Versi | Perubahan | Tanggal rilis | Dampak |
1.12.0 |
| 3 Januari 2025 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
November 2024
Versi | Perubahan | Terakhir Dimodifikasi | Dampak |
1.11.1 | Merilis cGPU 1.5.13. Versi ini memperbaiki masalah langka crash kernel yang dapat disebabkan oleh proses kontainer sisa. | 19 November 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
1.10.1 | Merilis cGPU 1.5.12. Versi ini memperbaiki masalah di mana isolasi memori GPU gagal untuk beberapa API CUDA dengan versi driver baru seperti 535. | 7 November 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
September 2024
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.9.16 |
| 26 September 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
1.9.15 | Merilis cGPU 1.5.11. Versi ini memperbaiki masalah terkait decoding. | 19 September 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Agustus 2024
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.9.14 |
| 21 Agustus 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
1.9.14 | Merilis cGPU 1.5.9. Versi ini menambahkan Kebijakan 6 untuk pemisahan proporsional daya komputasi dan memori GPU. | 13 Agustus 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Mei 2024
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.9.11 | Merilis cGPU 1.5.7. Versi ini menambahkan dukungan untuk GPU seri L dan driver GPU versi 550 serta yang lebih baru. | 14 Mei 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
1.9.10 | Merilis cGPU 1.5.7. Versi ini memperbaiki masalah di mana | 9 Mei 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Januari 2024
Versi | Perubahan | Terakhir Dimodifikasi | Dampak |
1.8.8 | Merilis cGPU 1.5.6. Versi ini memperkenalkan kebijakan baru cGPU License Server. | 4 Januari 2024 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Desember 2023
Versi | Perubahan | Terakhir Dimodifikasi | Dampak |
1.8.7 |
| 20 Desember 2023 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
November 2023
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.8.5 | Merilis cGPU 1.5.5. Versi ini memperbaiki masalah Kernel Panic yang dipicu oleh | 23 November 2023 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Agustus 2023
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.8.2 |
| 29 Agustus 2023 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
Juli 2023
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.7.7 |
| 4 Juli 2023 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
April 2023
Versi | Perubahan | Waktu Modifikasi | Dampak |
1.7.6 |
| 26 April 2023 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |
1.7.5 | Merilis cGPU 1.5.2. | 18 April 2023 | Peningkatan ini tidak memengaruhi layanan yang sudah ada. |