Kluster terdaftar ACK One menyediakan platform terpadu untuk mengoordinasikan dan mengelola sumber daya komputasi heterogen. Kemampuan ini secara signifikan meningkatkan pemanfaatan sumber daya serta efisiensi kluster Kubernetes dalam komputasi heterogen.
Arsitektur kelompok node
Kluster terdaftar ACK One menggunakan kelompok node untuk mengelola node kluster secara efisien. Kelompok node adalah kumpulan node dengan konfigurasi yang sama. Anda dapat membuat beberapa kelompok node dengan konfigurasi berbeda dalam satu kluster.
Ikhtisar fitur
Manajemen kelompok node umum
Fitur | Deskripsi | Dokumentasi terkait |
Manajemen siklus hidup |
| |
Penskalaan |
| |
Menghapus node | Hapus node yang tidak diperlukan dari kluster atau kelompok node. Ikuti prosedur standar untuk menghindari perilaku tak terduga. | |
Data pengguna kustom |
|
Kelompok node GPU
Fitur | Deskripsi | Dokumentasi terkait |
Menambahkan node GPU | Container Service for Kubernetes (ACK) menyediakan penjadwalan dan manajemen operasi terpadu untuk berbagai jenis sumber daya GPU yang dioptimalkan untuk komputasi. Kemampuan ini secara signifikan meningkatkan pemanfaatan sumber daya kluster GPU. | |
Versi driver NVIDIA | ACK mendukung daftar versi driver NVIDIA. | |
Driver GPU kustom | Jenis dan versi yang berbeda dari Kluster Terdaftar ACK One menginstal versi default driver NVIDIA yang berbeda. Jika aplikasi atau pustaka CUDA Anda memerlukan versi driver NVIDIA tertentu, Anda dapat menyesuaikan versi driver yang diinstal pada node GPU Anda. | Sesuaikan versi driver GPU node dengan menentukan nomor versi |
Pemantauan GPU
Fitur | Deskripsi | Dokumentasi terkait |
Aktifkan pemantauan GPU | Pemantauan GPU didasarkan pada NVIDIA DCGM untuk membangun sistem pemantauan GPU yang kuat.
| |
Panel Dasbor | Pelajari arti setiap panel di Dasbor pemantauan GPU. | |
Referensi metrik | Pemantauan GPU 2.0 menggunakan arsitektur Exporter, Prometheus, dan Grafana untuk menyediakan skenario observabilitas GPU yang lebih kaya. Lihat daftar metrik GPU yang diekspos oleh GPU Exporter, yang dapat digunakan untuk membangun Dasbor Grafana kustom. |
Diagnosis kesalahan GPU dan pemulihan
Fitur | Deskripsi | Dokumentasi terkait |
Deteksi kesalahan dan isolasi | Secara otomatis deteksi kegagalan GPU dan isolasi node yang terpengaruh untuk mencegah beban kerja dijadwalkan pada perangkat keras yang tidak sehat. |