全部产品
Search
文档中心

Container Service for Kubernetes:Integrasi daya komputasi GPU cloud

更新时间:Oct 18, 2025

Kluster terdaftar ACK One menyediakan platform terpadu untuk mengoordinasikan dan mengelola sumber daya komputasi heterogen. Kemampuan ini secara signifikan meningkatkan pemanfaatan sumber daya serta efisiensi kluster Kubernetes dalam komputasi heterogen.

Arsitektur kelompok node

Kluster terdaftar ACK One menggunakan kelompok node untuk mengelola node kluster secara efisien. Kelompok node adalah kumpulan node dengan konfigurasi yang sama. Anda dapat membuat beberapa kelompok node dengan konfigurasi berbeda dalam satu kluster.

Ikhtisar fitur

Manajemen kelompok node umum

Fitur

Deskripsi

Dokumentasi terkait

Manajemen siklus hidup

  • Buat kelompok node di Konsol dan konfigurasikan informasi dasar, pengaturan jaringan, spesifikasi instans, konfigurasi penyimpanan, dan jumlah node yang diinginkan.

  • Edit beberapa konfigurasi dari kelompok node yang ada.

  • Hapus kelompok node ketika nodenya tidak lagi diperlukan. Perilaku pelepasan node bergantung pada pengaturan jumlah node yang diinginkan dan metode penagihan node.

  • Lihat detail kelompok node, termasuk informasi dasar, Dasbor pemantauan sumber daya, daftar node, dan aktivitas penskalaan.

Buat dan kelola kelompok node

Penskalaan

  • Skalakan manual kelompok node dengan menyesuaikan jumlah node yang diinginkan. Metode ini menjaga jumlah node pada tingkat yang diinginkan untuk menghemat biaya sumber daya.

  • Konfigurasikan penskalaan otomatis untuk menambah atau menghapus node secara otomatis berdasarkan permintaan beban kerja.

Menghapus node

Hapus node yang tidak diperlukan dari kluster atau kelompok node. Ikuti prosedur standar untuk menghindari perilaku tak terduga.

Hapus node dari kelompok node

Data pengguna kustom

  • Gunakan skrip kustom untuk memastikan bahwa kelompok node dari kluster terdaftar mensinkronkan status node dengan benar dan memenuhi persyaratan penjadwalan cloud.

  • Skrip kustom harus menerima variabel lingkungan sistem dari Kluster Terdaftar ACK One.

Buat skrip kustom untuk kelompok node

Kelompok node GPU

Fitur

Deskripsi

Dokumentasi terkait

Menambahkan node GPU

Container Service for Kubernetes (ACK) menyediakan penjadwalan dan manajemen operasi terpadu untuk berbagai jenis sumber daya GPU yang dioptimalkan untuk komputasi. Kemampuan ini secara signifikan meningkatkan pemanfaatan sumber daya kluster GPU.

Tambahkan node yang dipercepat oleh GPU ke kluster

Versi driver NVIDIA

ACK mendukung daftar versi driver NVIDIA.

Versi driver NVIDIA yang didukung oleh ACK

Driver GPU kustom

Jenis dan versi yang berbeda dari Kluster Terdaftar ACK One menginstal versi default driver NVIDIA yang berbeda.

Jika aplikasi atau pustaka CUDA Anda memerlukan versi driver NVIDIA tertentu, Anda dapat menyesuaikan versi driver yang diinstal pada node GPU Anda.

Sesuaikan versi driver GPU node dengan menentukan nomor versi

Pemantauan GPU

Fitur

Deskripsi

Dokumentasi terkait

Aktifkan pemantauan GPU

Pemantauan GPU didasarkan pada NVIDIA DCGM untuk membangun sistem pemantauan GPU yang kuat.

Aktifkan pemantauan GPU untuk kluster

Panel Dasbor

Pelajari arti setiap panel di Dasbor pemantauan GPU.

Panel

Referensi metrik

Pemantauan GPU 2.0 menggunakan arsitektur Exporter, Prometheus, dan Grafana untuk menyediakan skenario observabilitas GPU yang lebih kaya. Lihat daftar metrik GPU yang diekspos oleh GPU Exporter, yang dapat digunakan untuk membangun Dasbor Grafana kustom.

Pengantar metrik

Diagnosis kesalahan GPU dan pemulihan

Fitur

Deskripsi

Dokumentasi terkait

Deteksi kesalahan dan isolasi

Secara otomatis deteksi kegagalan GPU dan isolasi node yang terpengaruh untuk mencegah beban kerja dijadwalkan pada perangkat keras yang tidak sehat.

Deteksi kesalahan GPU dan isolasi otomatis