Untuk meningkatkan fleksibilitas dan kemampuan konfigurasi dalam menangani anomali GPU, Container Service for Kubernetes (ACK) memperbarui mekanisme isolasi otomatis GPU-nya. Pembaruan ini memungkinkan Anda menyesuaikan respons kluster terhadap masalah GPU agar lebih sesuai dengan berbagai kebutuhan toleransi kesalahan di berbagai skenario bisnis.
Tanggal berlaku
Rilis canary akan dimulai pada 14 Mei 2026.
Apa yang berubah
ACK menyediakan fitur deteksi anomali GPU dan isolasi otomatis. Saat terdeteksi anomali GPU, GPU yang bermasalah dapat di-cordon untuk mencegah penjadwalan beban kerja baru ke GPU tersebut, sehingga meminimalkan dampak terhadap bisnis. Karena isolasi tidak sama dengan perbaikan otomatis, intervensi manual tetap diperlukan untuk memperbaiki atau mengganti GPU yang rusak.
Mulai dari versi 1.2.35 ACK Node Problem Detector (ACK NPD) dan versi 0.7.0 ACK NVIDIA Device Plugin, mekanisme pemicu untuk isolasi otomatis GPU berubah dari aktif secara default menjadi opsional melalui konfigurasi. Berikut rinciannya:
ACK NPD hanya bertanggung jawab atas deteksi anomali dan pembuatan laporan.
ACK NVIDIA Device Plugin menentukan apakah akan mengisolasi GPU yang bermasalah berdasarkan laporan deteksi dari ACK NPD dan kondisi pemicu spesifik yang Anda konfigurasikan.
Dengan mekanisme baru ini, isolasi otomatis GPU dinonaktifkan secara default. Untuk mengaktifkan fitur ini, Anda harus mengonfigurasi jenis anomali tertentu yang akan memicu isolasi.
Perbandingan perilaku
Perilaku sebelumnya
Saat ACK NPD mendeteksi anomali GPU, sistem membuat file isolasi. ACK NVIDIA Device Plugin membaca file tersebut dan secara otomatis mengisolasi semua GPU yang tercantum. Anda hanya bisa mengaktifkan atau menonaktifkan seluruh fitur ini dengan mengontrol pembuatan file tersebut.
Perilaku baru
Saat ACK NPD mendeteksi anomali GPU, sistem membuat laporan anomali. ACK NVIDIA Device Plugin kemudian memeriksa laporan ini terhadap daftar kondisi pemicu yang ditentukan pengguna. Secara default, daftar ini kosong, artinya isolasi otomatis GPU dinonaktifkan secara default. Kini Anda memiliki kontrol granular dan dapat menentukan anomali mana saja yang memicu isolasi otomatis.
Untuk menjaga kompatibilitas, versi baru ACK NPD akan tetap menghasilkan file isolasi GPU dalam format lama. Namun, versi baru ACK NVIDIA Device Plugin tidak lagi membaca file tersebut. Perilaku isolasi sepenuhnya ditentukan oleh konfigurasinya sendiri.
Versi dan perilaku yang terdampak
Mekanisme baru ini hanya berlaku untuk kluster ACK yang menjalankan Kubernetes versi 1.32 atau lebih baru.
Kluster dengan versi Kubernetes di bawah 1.32 akan tetap menggunakan mekanisme isolasi yang ada.
Perilaku fitur isolasi otomatis GPU bervariasi tergantung pada kombinasi versi add-on:
Versi ACK NPD | Versi ACK NVIDIA Device Plugin | Perilaku isolasi otomatis GPU |
< 1.2.24 | N/A | Deteksi anomali GPU tidak tersedia. |
≥ 1.2.24 | < 0.7.0 | Mengikuti perilaku isolasi yang ada. |
1.2.24 hingga 1.2.34 | ≥ 0.7.0 | Fitur isolasi otomatis GPU tidak berfungsi. Fitur lain berjalan normal. Karena versi ACK NPD sebelumnya tidak menghasilkan laporan anomali yang dibutuhkan NVIDIA Device Plugin versi baru untuk mengidentifikasi GPU yang bermasalah. Tanpa laporan ini, isolasi tidak dapat dilakukan. |
≥ 1.2.35 | ≥ 0.7.0 | Mengikuti perilaku isolasi baru. Isolasi dipicu berdasarkan kondisi yang dikonfigurasi pengguna, dan secara default dinonaktifkan. |
Tindakan yang direkomendasikan
Untuk menggunakan fitur isolasi otomatis yang dapat dikonfigurasi ini, lakukan langkah-langkah berikut.
Upgrade add-on Anda
Pastikan kluster Anda menjalankan ACK NPD versi 1.2.35 atau lebih baru dan ACK NVIDIA Device Plugin versi 0.7.0 atau lebih baru. Selama rilis canary, jika versi baru belum tersedia di halaman Components and Add-ons, kirimkan tiket untuk dimasukkan ke daftar allowlist. Kami menyarankan melakukan upgrade selama jam sepi.
Untuk upgrade ACK NPD: Lihat Upgrade add-on ack-node-problem-detector.
Untuk upgrade ACK NVIDIA Device Plugin: Lihat Upgrade NVIDIA device plugin.
Konfigurasikan pemicu isolasi otomatis
Berdasarkan kebutuhan bisnis Anda, konfigurasikan jenis anomali tertentu yang akan memicu isolasi otomatis. Untuk petunjuk lengkap, lihat dokumentasi terbaru tentang Deteksi kesalahan GPU dan pemagaran otomatis.
(Direkomendasikan) Konfigurasikan alert anomali GPU
Kami juga merekomendasikan mengonfigurasi alert anomali GPU. Hal ini memastikan Anda segera diberi tahu saat terjadi laporan anomali, sehingga dapat menangani masalah sebelum berdampak pada bisnis. Untuk informasi lebih lanjut, lihat Praktik terbaik observabilitas untuk skenario GPU atau Pelatihan AI.
Tinjau bagaimana perubahan ini dapat memengaruhi operasi Anda dan lakukan penyesuaian yang diperlukan sebelum melakukan upgrade, guna mencegah terjadinya perilaku tak terduga akibat mekanisme isolasi baru.