Anda dapat menginstal komponen pemantauan AI cloud-native ack-arena-exporter untuk memantau penggunaan sumber daya GPU berdasarkan kluster, node, atau pekerjaan pelatihan, serta mendapatkan wawasan tentang kuota sumber daya di berbagai namespace. Topik ini menjelaskan cara menginstal ack-arena-exporter dan menggunakan dashboard kluster, node, pekerjaan pelatihan, serta kuota sumber daya.
Prasyarat
Hanya kluster Container Service for Kubernetes (ACK) Pro yang didukung, dengan versi Kubernetes minimal 1.18.8.
Komponen Arena versi 0.7.0 atau lebih baru telah diinstal. Untuk informasi lebih lanjut, lihat Konfigurasi Klien Arena.
Instal komponen pemantauan ack-arms-prometheus. Untuk informasi lebih lanjut, lihat arms-prometheus.
Komponen AI Dashboard telah diinstal. Untuk informasi lebih lanjut, lihat Deploy Suite AI Cloud-Native.
Informasi latar belakang
Setelah menggunakan Arena untuk mengirimkan pekerjaan pelatihan, Anda mungkin ingin memantau penggunaan GPU dan Memori GPU berdasarkan kluster, node, pekerjaan pelatihan, atau kuota sumber daya. Pada kluster ACK tradisional, Anda hanya dapat memantau penggunaan sumber daya GPU (termasuk Pemanfaatan GPU, Penggunaan Memori GPU, dan Daya GPU) pada node tertentu atau melihat sumber daya GPU yang digunakan oleh pod tertentu.
Untuk memantau penggunaan sumber daya dalam dimensi yang lebih luas, ACK menyediakan dashboard AI cloud-native. Dibandingkan dengan dashboard GPU pada kluster ACK tradisional, dashboard AI memiliki manfaat berikut:
Dashboard AI mencakup dashboard kluster, dashboard node, dashboard pekerjaan pelatihan, dan dashboard kuota sumber daya.
Dashboard kluster menampilkan jumlah total node yang dipercepat GPU, jumlah node tidak sehat yang dipercepat GPU, rata-rata Pemanfaatan GPU, serta jumlah pekerjaan pelatihan dalam berbagai status.
Dashboard node menampilkan jumlah total GPU, jumlah GPU yang dialokasikan, Pemanfaatan GPU, serta Penggunaan Memori GPU pada setiap node.
Dashboard pekerjaan pelatihan menampilkan status, durasi, jumlah GPU yang diminta, rata-rata Pemanfaatan GPU, serta Penggunaan Memori GPU dari setiap pekerjaan pelatihan.
Dashboard kuota sumber daya menampilkan alokasi dan penggunaan jenis sumber daya di namespace tertentu, seperti Kuota Maksimum, Kuota Minimum, dan Kuota Digunakan.
Instal ack-arena-exporter
Masuk ke Konsol ACK. Di panel navigasi kiri, klik Clusters.
Di halaman Clusters, temukan kluster yang diinginkan dan klik namanya. Di panel navigasi kiri, pilih .
Instal ack-arena-exporter.
Jika Anda telah menginstal suite AI cloud-native:
Di halaman Cloud-native AI Suite, temukan komponen pemantauan AI cloud-native bernama ack-arena-exporter, lalu klik Deploy di kolom Actions.
Jika Anda belum menginstal suite AI cloud-native:
Di halaman Cloud-native AI Suite, klik Deploy. Di bagian Monitoring, pilih Monitoring Component, lalu klik Deploy Cloud-native AI Suite.
Pengenalan dashboard AI
Setelah masuk ke AI Dashboard, Anda akan diarahkan ke dashboard kluster secara default. Klik ikon
di pojok kiri atas halaman untuk beralih antar dashboard.
Kluster: Dashboard kluster
Node: Dashboard node
TrainingJobs: Dashboard pekerjaan pelatihan
Kuota: Dashboard kuota sumber daya
Cluster dashboard
Untuk informasi lebih lanjut, lihat Metode 1: Gunakan Ingress Berbasis Internet untuk Mengakses AI Dashboard.
Berikut adalah metrik yang ditampilkan di dashboard kluster:
GPU Summary Of Cluster: Menampilkan jumlah total node yang dipercepat GPU, jumlah node yang dipercepat GPU yang dialokasikan, serta jumlah node yang dipercepat GPU yang tidak sehat di kluster.
Total GPU Nodes: Menampilkan jumlah total node yang dipercepat GPU di kluster.
Unhealthy GPU Nodes: Menampilkan jumlah node yang dipercepat GPU yang tidak sehat di kluster.
GPU Memory(Used/Total): Menampilkan rasio memori GPU yang digunakan oleh kluster terhadap total memori GPU.
GPU Memory(Allocated/Total): Menampilkan rasio memori GPU yang dialokasikan oleh kluster terhadap total memori GPU.
GPU Utilization: Rata-rata Pemanfaatan GPU dari kluster.
GPUs(Allocated/Total): Menampilkan rasio jumlah GPU yang dialokasikan oleh kluster terhadap jumlah total GPU.
Training Job Summary Of Cluster: Menampilkan jumlah pekerjaan pelatihan dalam status Berjalan, Tertunda, Berhasil, dan Gagal.

Dashboard node
Di halaman Kluster, klik Nodes di pojok kanan atas untuk menuju ke dashboard node.
Berikut adalah metrik yang ditampilkan di dashboard node:
GPU Node Details: Menampilkan informasi tentang node kluster dalam tabel, termasuk nama node, alamat IP, peran, status, mode GPU (eksklusif atau dibagi), jumlah GPU, total memori GPU, jumlah GPU yang dialokasikan, memori GPU yang dialokasikan, memori GPU yang digunakan, serta rata-rata Pemanfaatan GPU.
Nama setiap node
Alamat IP setiap node dalam kluster
Peran setiap node dalam kluster
Status setiap node
Mode GPU setiap node: eksklusif atau dibagi
Jumlah GPU yang dimiliki setiap node
Total memori GPU yang dimiliki setiap node
Jumlah GPU yang dialokasikan pada setiap node
Jumlah memori GPU yang dialokasikan pada setiap node
Jumlah memori GPU yang digunakan pada setiap node
Rata-rata Pemanfaatan GPU pada setiap node
GPU Duty Cycle: Menampilkan tingkat pemanfaatan setiap GPU pada setiap node.
GPU Memory Usage: Menampilkan penggunaan memori setiap GPU pada setiap node.
GPU Memory Usage Percentage: Menampilkan persentase penggunaan memori per GPU pada setiap node.
Allocated GPUs Per Node: Menampilkan jumlah GPU yang dialokasikan pada setiap node.
GPU Number Per Node: Menampilkan jumlah total GPU pada setiap node.
Total GPU Memory Per Node: Menampilkan jumlah total memori GPU pada setiap node.


Gunakan filter gpu_node dan GPU di pojok kiri atas halaman Node untuk menyaring node dan GPU. Ini memungkinkan Anda melihat penggunaan GPU hanya pada node tertentu.

Training job dashboard
Di halaman Node, klik TrainingJobs di pojok kanan atas untuk menuju ke dashboard pekerjaan pelatihan.
Berikut adalah metrik yang ditampilkan di dashboard pekerjaan pelatihan:
Training Jobs: Menampilkan informasi tentang setiap pekerjaan pelatihan dalam tabel, termasuk namespace, nama, tipe, status, durasi, jumlah GPU yang diminta, jumlah memori GPU yang diminta, jumlah memori GPU yang digunakan, serta rata-rata Pemanfaatan GPU.
Namespace untuk setiap pekerjaan pelatihan
Nama untuk setiap pekerjaan pelatihan
Tipe untuk setiap pekerjaan pelatihan
Status untuk setiap pekerjaan pelatihan
Durasi untuk setiap pekerjaan pelatihan
Jumlah GPU yang diminta untuk setiap pekerjaan pelatihan
Jumlah memori GPU yang diminta untuk setiap pekerjaan pelatihan
Jumlah memori GPU yang digunakan untuk setiap pekerjaan pelatihan
Rata-rata Pemanfaatan GPU untuk setiap pekerjaan pelatihan
Job Instance Used GPU Memory: Menampilkan jumlah memori GPU yang digunakan oleh setiap instans pekerjaan.
Job Instance Used GPU Memory Percentage: Menampilkan persentase memori GPU yang digunakan oleh setiap instans pekerjaan.
Job Instance GPU Duty Cycle: Menampilkan pemanfaatan GPU setiap instans pekerjaan.

Gunakan filter job_namespace, job_type, dan job_name untuk menyaring pekerjaan pelatihan berdasarkan namespace, tipe, dan nama. Ini memungkinkan Anda melihat informasi detail hanya pada pekerjaan pelatihan tertentu.

Resource quota dashboard
Di halaman Training Jobs, klik Quota di pojok kanan atas untuk menuju ke dashboard kuota sumber daya.
Berikut adalah metrik yang ditampilkan di dashboard kuota sumber daya:
Quota(cpu)
Quota(memory)
Quota(nvidia.com/gpu)
Quota(aliyun.com/gpu-mem)
Quota(aliyun.com/gpu)
Setiap metrik dalam daftar di atas menampilkan informasi tentang kuota sumber daya dalam tabel, termasuk nama grup kuota, namespace, tipe sumber daya, jumlah maksimum sumber daya yang dapat digunakan, jumlah minimum sumber daya yang tersedia ketika kluster kekurangan sumber daya, serta jumlah sumber daya yang digunakan.
Elastic Quota Name: Menampilkan nama grup kuota.
Namespace: Menampilkan namespace tempat sumber daya berada.
Resource Name: Menampilkan tipe sumber daya.
Max Quota: Menampilkan jumlah maksimum sumber daya yang dapat digunakan di namespace tertentu.
Min Quota: Menampilkan jumlah minimum sumber daya yang dapat digunakan di namespace tertentu ketika kluster kekurangan sumber daya.
Used Quota: Menampilkan jumlah sumber daya yang telah digunakan di namespace tertentu.

Contoh cara bekerja dengan dashboard AI
Dalam contoh ini, Arena digunakan untuk mengirimkan pekerjaan pelatihan mpijob. Setelah mengirimkan pekerjaan pelatihan, amati perubahan di dashboard AI.
Setelah masuk ke AI Dashboard, Anda akan diarahkan ke dashboard kluster secara default.
Gambar berikut menunjukkan tampilan dashboard kluster ketika tidak ada pekerjaan pelatihan yang dikirimkan ke kluster.

Gambar di atas menunjukkan bahwa kluster berisi dua node yang dipercepat GPU dan dua GPU.
Jalankan perintah berikut untuk mengirimkan pekerjaan pelatihan
mpijob:arena submit mpijob \ --name=mpi-test \ --gpus=1 \ --workers=1 \ --working-dir=/perseus-demo/tensorflow-demo/ \ --image=registry.cn-beijing.aliyuncs.com/ai-samples/horovod:0.13.11-tf1.10.0-torch0.4.0-py3.5 \ 'mpirun python /benchmarks/scripts/tf_cnn_benchmarks/tf_cnn_benchmarks.py --model resnet101 --batch_size 64 --num_batches 5000 --variable_update horovod --train_dir=/training_logs --summary_verbosity=3 --save_summaries_steps=10'Periksa dashboard kluster lagi.

Gambar di atas menunjukkan bahwa metrik seperti Pemanfaatan GPU dan GPU (Dialokasikan/Total) telah diperbarui.
Jalankan perintah berikut untuk menanyakan node tempat pekerjaan berjalan:
arena listOutput yang diharapkan:
NAME STATUS TRAINER DURATION GPU(Requested) GPU(Allocated) NODE mpi-test RUNNING MPIJOB 8s 1 1 192.168.1.151Di halaman Kluster, klik Nodes di pojok kanan atas untuk menuju ke dashboard node. Output yang dikembalikan di Langkah 4 menunjukkan bahwa alamat IP node tempat pekerjaan berjalan adalah
192.168.1.151. Anda dapat melihat bahwa metrik terkait GPU dari node tersebut diperbarui, seperti yang ditunjukkan pada gambar berikut.
Di halaman Node, klik TrainingJobs di pojok kanan atas untuk menuju ke dashboard pekerjaan pelatihan tempat Anda dapat melihat informasi tentang pekerjaan pelatihan di kluster, seperti nama dan status pekerjaan pelatihan.
