全部产品
Search
文档中心

Container Service for Kubernetes:Bekerja dengan dashboard AI cloud-native

更新时间:Jun 26, 2025

Anda dapat menginstal komponen pemantauan AI cloud-native ack-arena-exporter untuk memantau penggunaan sumber daya GPU berdasarkan kluster, node, atau pekerjaan pelatihan, serta mendapatkan wawasan tentang kuota sumber daya di berbagai namespace. Topik ini menjelaskan cara menginstal ack-arena-exporter dan menggunakan dashboard kluster, node, pekerjaan pelatihan, serta kuota sumber daya.

Prasyarat

  • Hanya kluster Container Service for Kubernetes (ACK) Pro yang didukung, dengan versi Kubernetes minimal 1.18.8.

  • Komponen Arena versi 0.7.0 atau lebih baru telah diinstal. Untuk informasi lebih lanjut, lihat Konfigurasi Klien Arena.

  • Instal komponen pemantauan ack-arms-prometheus. Untuk informasi lebih lanjut, lihat arms-prometheus.

  • Komponen AI Dashboard telah diinstal. Untuk informasi lebih lanjut, lihat Deploy Suite AI Cloud-Native.

Informasi latar belakang

Setelah menggunakan Arena untuk mengirimkan pekerjaan pelatihan, Anda mungkin ingin memantau penggunaan GPU dan Memori GPU berdasarkan kluster, node, pekerjaan pelatihan, atau kuota sumber daya. Pada kluster ACK tradisional, Anda hanya dapat memantau penggunaan sumber daya GPU (termasuk Pemanfaatan GPU, Penggunaan Memori GPU, dan Daya GPU) pada node tertentu atau melihat sumber daya GPU yang digunakan oleh pod tertentu.

Untuk memantau penggunaan sumber daya dalam dimensi yang lebih luas, ACK menyediakan dashboard AI cloud-native. Dibandingkan dengan dashboard GPU pada kluster ACK tradisional, dashboard AI memiliki manfaat berikut:

  • Dashboard AI mencakup dashboard kluster, dashboard node, dashboard pekerjaan pelatihan, dan dashboard kuota sumber daya.

  • Dashboard kluster menampilkan jumlah total node yang dipercepat GPU, jumlah node tidak sehat yang dipercepat GPU, rata-rata Pemanfaatan GPU, serta jumlah pekerjaan pelatihan dalam berbagai status.

  • Dashboard node menampilkan jumlah total GPU, jumlah GPU yang dialokasikan, Pemanfaatan GPU, serta Penggunaan Memori GPU pada setiap node.

  • Dashboard pekerjaan pelatihan menampilkan status, durasi, jumlah GPU yang diminta, rata-rata Pemanfaatan GPU, serta Penggunaan Memori GPU dari setiap pekerjaan pelatihan.

  • Dashboard kuota sumber daya menampilkan alokasi dan penggunaan jenis sumber daya di namespace tertentu, seperti Kuota Maksimum, Kuota Minimum, dan Kuota Digunakan.

Instal ack-arena-exporter

  1. Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.

  2. Di halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel navigasi kiri, pilih Applications > Cloud-native AI Suite.

  3. Instal ack-arena-exporter.

    • Jika Anda telah menginstal suite AI cloud-native:

      Di halaman Cloud-native AI Suite, temukan komponen pemantauan AI cloud-native bernama ack-arena-exporter, lalu klik Deploy di kolom Actions.

    • Jika Anda belum menginstal suite AI cloud-native:

      Di halaman Cloud-native AI Suite, klik Deploy. Di bagian Monitoring, pilih Monitoring Component, lalu klik Deploy Cloud-native AI Suite.

Pengenalan dashboard AI

Setelah masuk ke AI Dashboard, Anda akan diarahkan ke dashboard kluster secara default. Klik ikon image.png di pojok kiri atas halaman untuk beralih antar dashboard.

  • Kluster: Dashboard kluster

  • Node: Dashboard node

  • TrainingJobs: Dashboard pekerjaan pelatihan

  • Kuota: Dashboard kuota sumber daya

Cluster dashboard

Untuk informasi lebih lanjut, lihat Metode 1: Gunakan Ingress Berbasis Internet untuk Mengakses AI Dashboard.

Berikut adalah metrik yang ditampilkan di dashboard kluster:

  • GPU Summary Of Cluster: Menampilkan jumlah total node yang dipercepat GPU, jumlah node yang dipercepat GPU yang dialokasikan, serta jumlah node yang dipercepat GPU yang tidak sehat di kluster.

  • Total GPU Nodes: Menampilkan jumlah total node yang dipercepat GPU di kluster.

  • Unhealthy GPU Nodes: Menampilkan jumlah node yang dipercepat GPU yang tidak sehat di kluster.

  • GPU Memory(Used/Total): Menampilkan rasio memori GPU yang digunakan oleh kluster terhadap total memori GPU.

  • GPU Memory(Allocated/Total): Menampilkan rasio memori GPU yang dialokasikan oleh kluster terhadap total memori GPU.

  • GPU Utilization: Rata-rata Pemanfaatan GPU dari kluster.

  • GPUs(Allocated/Total): Menampilkan rasio jumlah GPU yang dialokasikan oleh kluster terhadap jumlah total GPU.

  • Training Job Summary Of Cluster: Menampilkan jumlah pekerjaan pelatihan dalam status Berjalan, Tertunda, Berhasil, dan Gagal.

jk1

Dashboard node

Di halaman Kluster, klik Nodes di pojok kanan atas untuk menuju ke dashboard node.

Berikut adalah metrik yang ditampilkan di dashboard node:

  • GPU Node Details: Menampilkan informasi tentang node kluster dalam tabel, termasuk nama node, alamat IP, peran, status, mode GPU (eksklusif atau dibagi), jumlah GPU, total memori GPU, jumlah GPU yang dialokasikan, memori GPU yang dialokasikan, memori GPU yang digunakan, serta rata-rata Pemanfaatan GPU.

    • Nama setiap node

    • Alamat IP setiap node dalam kluster

    • Peran setiap node dalam kluster

    • Status setiap node

    • Mode GPU setiap node: eksklusif atau dibagi

    • Jumlah GPU yang dimiliki setiap node

    • Total memori GPU yang dimiliki setiap node

    • Jumlah GPU yang dialokasikan pada setiap node

    • Jumlah memori GPU yang dialokasikan pada setiap node

    • Jumlah memori GPU yang digunakan pada setiap node

    • Rata-rata Pemanfaatan GPU pada setiap node

  • GPU Duty Cycle: Menampilkan tingkat pemanfaatan setiap GPU pada setiap node.

  • GPU Memory Usage: Menampilkan penggunaan memori setiap GPU pada setiap node.

  • GPU Memory Usage Percentage: Menampilkan persentase penggunaan memori per GPU pada setiap node.

  • Allocated GPUs Per Node: Menampilkan jumlah GPU yang dialokasikan pada setiap node.

  • GPU Number Per Node: Menampilkan jumlah total GPU pada setiap node.

  • Total GPU Memory Per Node: Menampilkan jumlah total memori GPU pada setiap node.

jk21jk22

Gunakan filter gpu_node dan GPU di pojok kiri atas halaman Node untuk menyaring node dan GPU. Ini memungkinkan Anda melihat penggunaan GPU hanya pada node tertentu.

jk23

Training job dashboard

Di halaman Node, klik TrainingJobs di pojok kanan atas untuk menuju ke dashboard pekerjaan pelatihan.

Berikut adalah metrik yang ditampilkan di dashboard pekerjaan pelatihan:

  • Training Jobs: Menampilkan informasi tentang setiap pekerjaan pelatihan dalam tabel, termasuk namespace, nama, tipe, status, durasi, jumlah GPU yang diminta, jumlah memori GPU yang diminta, jumlah memori GPU yang digunakan, serta rata-rata Pemanfaatan GPU.

    • Namespace untuk setiap pekerjaan pelatihan

    • Nama untuk setiap pekerjaan pelatihan

    • Tipe untuk setiap pekerjaan pelatihan

    • Status untuk setiap pekerjaan pelatihan

    • Durasi untuk setiap pekerjaan pelatihan

    • Jumlah GPU yang diminta untuk setiap pekerjaan pelatihan

    • Jumlah memori GPU yang diminta untuk setiap pekerjaan pelatihan

    • Jumlah memori GPU yang digunakan untuk setiap pekerjaan pelatihan

    • Rata-rata Pemanfaatan GPU untuk setiap pekerjaan pelatihan

  • Job Instance Used GPU Memory: Menampilkan jumlah memori GPU yang digunakan oleh setiap instans pekerjaan.

  • Job Instance Used GPU Memory Percentage: Menampilkan persentase memori GPU yang digunakan oleh setiap instans pekerjaan.

  • Job Instance GPU Duty Cycle: Menampilkan pemanfaatan GPU setiap instans pekerjaan.

jk31

Gunakan filter job_namespace, job_type, dan job_name untuk menyaring pekerjaan pelatihan berdasarkan namespace, tipe, dan nama. Ini memungkinkan Anda melihat informasi detail hanya pada pekerjaan pelatihan tertentu.

jk32

Resource quota dashboard

Di halaman Training Jobs, klik Quota di pojok kanan atas untuk menuju ke dashboard kuota sumber daya.

Berikut adalah metrik yang ditampilkan di dashboard kuota sumber daya:

  • Quota(cpu)

  • Quota(memory)

  • Quota(nvidia.com/gpu)

  • Quota(aliyun.com/gpu-mem)

  • Quota(aliyun.com/gpu)

Setiap metrik dalam daftar di atas menampilkan informasi tentang kuota sumber daya dalam tabel, termasuk nama grup kuota, namespace, tipe sumber daya, jumlah maksimum sumber daya yang dapat digunakan, jumlah minimum sumber daya yang tersedia ketika kluster kekurangan sumber daya, serta jumlah sumber daya yang digunakan.

  • Elastic Quota Name: Menampilkan nama grup kuota.

  • Namespace: Menampilkan namespace tempat sumber daya berada.

  • Resource Name: Menampilkan tipe sumber daya.

  • Max Quota: Menampilkan jumlah maksimum sumber daya yang dapat digunakan di namespace tertentu.

  • Min Quota: Menampilkan jumlah minimum sumber daya yang dapat digunakan di namespace tertentu ketika kluster kekurangan sumber daya.

  • Used Quota: Menampilkan jumlah sumber daya yang telah digunakan di namespace tertentu.

jk41

Contoh cara bekerja dengan dashboard AI

Dalam contoh ini, Arena digunakan untuk mengirimkan pekerjaan pelatihan mpijob. Setelah mengirimkan pekerjaan pelatihan, amati perubahan di dashboard AI.

  1. Setelah masuk ke AI Dashboard, Anda akan diarahkan ke dashboard kluster secara default.

    Gambar berikut menunjukkan tampilan dashboard kluster ketika tidak ada pekerjaan pelatihan yang dikirimkan ke kluster.

    jk51

    Gambar di atas menunjukkan bahwa kluster berisi dua node yang dipercepat GPU dan dua GPU.

  2. Jalankan perintah berikut untuk mengirimkan pekerjaan pelatihan mpijob:

    arena submit mpijob \
        --name=mpi-test \
        --gpus=1 \
        --workers=1 \
        --working-dir=/perseus-demo/tensorflow-demo/ \
        --image=registry.cn-beijing.aliyuncs.com/ai-samples/horovod:0.13.11-tf1.10.0-torch0.4.0-py3.5 \
        'mpirun python /benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py --model resnet101 --batch_size 64 --num_batches 5000 --variable_update horovod --train_dir=/training_logs --summary_verbosity=3 --save_summaries_steps=10'
  3. Periksa dashboard kluster lagi.

    jk52

    Gambar di atas menunjukkan bahwa metrik seperti Pemanfaatan GPU dan GPU (Dialokasikan/Total) telah diperbarui.

  4. Jalankan perintah berikut untuk menanyakan node tempat pekerjaan berjalan:

    arena list

    Output yang diharapkan:

    NAME      STATUS   TRAINER  DURATION  GPU(Requested)  GPU(Allocated)  NODE
    mpi-test  RUNNING  MPIJOB   8s        1               1               192.168.1.151
  5. Di halaman Kluster, klik Nodes di pojok kanan atas untuk menuju ke dashboard node. Output yang dikembalikan di Langkah 4 menunjukkan bahwa alamat IP node tempat pekerjaan berjalan adalah 192.168.1.151. Anda dapat melihat bahwa metrik terkait GPU dari node tersebut diperbarui, seperti yang ditunjukkan pada gambar berikut.

    jk53

  6. Di halaman Node, klik TrainingJobs di pojok kanan atas untuk menuju ke dashboard pekerjaan pelatihan tempat Anda dapat melihat informasi tentang pekerjaan pelatihan di kluster, seperti nama dan status pekerjaan pelatihan.

    jk54