Pantau dan konfigurasikan peringatan untuk pekerjaan pelatihan PAI menggunakan CloudMonitor atau ARMS. - Platform For AI

DLC menyediakan metrik terperinci yang memungkinkan Anda memantau penggunaan sumber daya pekerjaan. Fitur peringatan memungkinkan pemantauan real-time terhadap penggunaan sumber daya pekerjaan DLC serta pengonfigurasian aturan dan notifikasi peringatan. Jika suatu metrik, seperti GPU utilization, melebihi ambang batas yang ditentukan, layanan akan mengirim pemberitahuan peringatan. Topik ini menjelaskan cara menggunakan CloudMonitor dan ARMS untuk melihat data pemantauan, mengonfigurasi aturan dan notifikasi peringatan, serta berlangganan metrik.

Prasyarat

Untuk mengonfigurasi pemantauan dan peringatan pekerjaan pelatihan DLC, Anda harus membuat satu atau beberapa pekerjaan pelatihan DLC. Untuk informasi selengkapnya, lihat Buat pekerjaan pelatihan.

Batasan

Pemantauan tidak tersedia untuk pekerjaan pelatihan pay-as-you-go yang menggunakan sumber daya komputasi umum.

Akun dan izin

Akun Alibaba Cloud: Memungkinkan Anda melakukan semua operasi tanpa otorisasi tambahan.
RAM user:
- Untuk melihat data pemantauan pekerjaan DLC dalam ruang kerja, RAM user memerlukan izin berikut:
  - Tambahkan RAM user sebagai anggota ruang kerja dan tetapkan peran Administrator, Algorithm Developer, atau Algorithm O&M Engineer. Untuk informasi selengkapnya, lihat Kelola anggota ruang kerja.
  - Berikan akses read-only RAM user ke CloudMonitor (AliyunCloudMonitorReadOnlyAccess). Untuk informasi selengkapnya, lihat Kelola izin RAM user.
- Untuk melihat data pemantauan pekerjaan DLC dalam ruang kerja dan mengonfigurasi peringatan pemantauan, RAM user memerlukan izin berikut:
  - Tambahkan RAM user sebagai anggota ruang kerja dan tetapkan peran Administrator, Algorithm Developer, atau Algorithm O&M Engineer. Untuk informasi selengkapnya, lihat Kelola anggota ruang kerja.
  - Berikan akses administratif RAM user ke CloudMonitor (AliyunCloudMonitorFullAccess). Untuk informasi selengkapnya, lihat Kelola izin RAM user.

Metrik pemantauan

Metrik pemantauan mencakup GPU, CPU, memory, disk, network, RDMA, dan CPFS. Dimensi yang didukung adalah job, pod (worker), dan kartu GPU individual. Tabel berikut mencantumkan metrik kesehatan khas. Untuk daftar lengkap metrik beserta deskripsi rincinya, lihat Metrik untuk Deep Learning Containers (DLC).

Job

Metric	Description
CPU utilization (job dimension)	Persentase total sumber daya CPU yang digunakan oleh job.
Memory utilization (job dimension)	Persentase total sumber daya memori yang digunakan oleh Pekerjaan.
Disk read data rate (job dimension)	Laju pembacaan data dari disk untuk job, dalam satuan MiB/s.
Disk write data rate (job dimension)	Laju penulisan data ke disk untuk job, dalam satuan MiB/s.
Network receive data rate (job dimension)	Laju penerimaan data oleh job, dalam satuan MiB/s.
Network send data rate (job dimension)	Laju pengiriman data oleh job, dalam satuan MiB/s.
GPU compute utilization (job dimension)	Persentase total sumber daya komputasi GPU yang digunakan oleh job.
GPU memory utilization (job dimension)	Persentase total memori GPU yang digunakan oleh job.
GPU SM utilization (job dimension)	Persentase total sumber daya Streaming Multiprocessor (SM) GPU yang digunakan oleh job.
GPU power consumption (job dimension)	Konsumsi daya GPU job, dalam satuan watt.
GPU temperature (job dimension)	Suhu GPU job, dalam derajat Celsius.
Overall GPU health (job dimension)	Kesehatan keseluruhan GPU dalam job. Nilai 100% menunjukkan bahwa semua GPU sehat. Nilai kurang dari 100% menunjukkan bahwa satu atau lebih GPU tidak normal.
RDMA receive data rate (job dimension)	Laju penerimaan data RDMA untuk job, dalam satuan MiB/s.
RDMA send data rate (job dimension)	Laju pengiriman data RDMA untuk job, dalam satuan MiB/s.
CPFS write data rate (job dimension)	Laju penulisan data ke CPFS untuk job, dalam satuan MiB/s.
CPFS read data rate (job dimension)	Laju pembacaan data dari CPFS untuk job, dalam satuan MiB/s.
NVLink receive data volume (job dimension)	Volume data yang diterima melalui NVLink oleh GPU dalam job.
NVLink send data volume (job dimension)	Volume data yang dikirim melalui NVLink oleh GPU dalam job.
PCIe receive data volume (job dimension)	Volume data yang diterima melalui PCIe oleh GPU dalam job.
PCIe send data volume (job dimension)	Volume data yang dikirim melalui PCIe oleh GPU dalam job.
Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC).

Pod (worker)

Metric	Description
CPU utilization (pod dimension)	Persentase total sumber daya CPU yang digunakan oleh pod.
Memory utilization (pod dimension)	Persentase total sumber daya memory yang digunakan oleh pod.
Disk read data rate (pod dimension)	Laju pembacaan data dari disk untuk pod, dalam satuan MiB/s.
Disk write data rate (pod dimension)	Laju penulisan data ke disk untuk pod, dalam satuan MiB/s.
Network receive data rate (pod dimension)	Laju penerimaan data oleh pod, dalam satuan MiB/s.
Network send data rate (pod dimension)	Laju pengiriman data oleh pod, dalam satuan MiB/s.
GPU compute utilization (pod dimension)	Persentase total sumber daya komputasi GPU yang digunakan oleh pod.
GPU memory utilization (pod dimension)	Persentase total memori GPU yang digunakan oleh pod.
GPU SM utilization (pod dimension)	Persentase total sumber daya Streaming Multiprocessor (SM) GPU yang digunakan oleh pod.
GPU power consumption (pod dimension)	Konsumsi daya GPU pod, dalam satuan watt.
GPU temperature (pod dimension)	Suhu GPU pod, dalam derajat Celsius.
Overall GPU health (pod dimension)	Kesehatan keseluruhan GPU dalam pod. Nilai 100% menunjukkan bahwa semua GPU sehat. Nilai kurang dari 100% menunjukkan bahwa satu atau lebih GPU tidak normal.
RDMA receive data rate (pod dimension)	Laju penerimaan data RDMA untuk pod, dalam satuan MiB/s.
RDMA send data rate (pod dimension)	Laju pengiriman data RDMA untuk pod, dalam satuan MiB/s.
CPFS read data rate (pod dimension)	Laju pembacaan data dari CPFS untuk pod, dalam satuan MiB/s.
CPFS write data rate (pod dimension)	Laju penulisan data ke CPFS untuk pod, dalam satuan MiB/s.
NVLink receive data volume (pod dimension)	Volume data yang diterima melalui NVLink oleh GPU dalam pod.
NVLink send data volume (pod dimension)	Volume data yang dikirim melalui NVLink oleh GPU dalam pod.
PCIe receive data volume (pod dimension)	Volume data yang diterima melalui PCIe oleh GPU dalam pod.
PCIe send data volume (pod dimension)	Volume data yang dikirim melalui PCIe oleh GPU dalam pod.
Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC).

GPU card

Metric	Description
GPU memory interface utilization (card dimension)	Persentase kapasitas antarmuka memori GPU yang digunakan pada kartu GPU individual.
GPU SM utilization (card dimension)	Persentase kapasitas SM GPU yang digunakan pada kartu GPU individual.
GPU power consumption (card dimension)	Konsumsi daya kartu GPU individual, dalam satuan watt.
GPU temperature (card dimension)	Suhu kartu GPU individual, dalam derajat Celsius.
Overall GPU health (card dimension)	Kesehatan keseluruhan kartu GPU individual. Nilai 100% menunjukkan bahwa kartu tersebut sehat. Nilai kurang dari 100% menunjukkan bahwa kartu tersebut tidak normal.
Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC).

Grafik pemantauan

Pada halaman detail pekerjaan DLC, beralihlah ke tab Monitoring untuk melihat data pemantauan job. (Catatan: Data pemantauan job disimpan hingga 30 hari.)

Tab Monitoring memiliki tiga subtab: job dimension, instance dimension, dan GPU dimension. Subtab ini menampilkan metrik untuk GPU, CPU, memory, network, disk, dan OSS.
Anda dapat memantau metrik berdasarkan Job Level, Instance Dimension, dan GPU Level, yang mencakup GPU, CPU, memory, network, disk, dan OSS.
Klik More untuk memilih metrik yang akan ditampilkan. Anda kemudian dapat menyeret metrik untuk mengubah urutannya, sehingga membantu memprioritaskan data penting untuk perbandingan.

Kotak dialog memiliki dua bagian: Metric Selection dan Metric Sorting. Di bawah grup GPU, metrik yang tersedia mencakup GPU utilization, GPU memory utilization, total GPU memory, dan used GPU memory. Di bawah grup CPU, Anda dapat memilih metrik seperti CPU utilization. Klik OK setelah menyelesaikan pemilihan.
Pada grafik pemantauan, Anda dapat menggunakan region zoom (perbesar), undo zoom (kembalikan zoom sebelumnya), reset (kembalikan tampilan awal), dan download.
chart sync: Saat diaktifkan, fitur ini menyinkronkan tindakan zoom di semua grafik, sehingga mempermudah perbandingan beberapa tampilan.

Klik daftar drop-down layout di sebelah kanan dan pilih One per row, Two per row, atau Three per row.
Anda dapat menyesuaikan jumlah grafik yang ditampilkan per baris.

Gunakan CloudMonitor

CloudMonitor memantau sumber daya Alibaba Cloud dan aplikasi internet. Anda dapat menggunakan konsol CloudMonitor untuk melihat data pemantauan pekerjaan PAI-Deep Learning Containers (DLC) dan mengonfigurasi notifikasi peringatan. CloudMonitor juga menyediakan API yang memungkinkan Anda berlangganan data metrik untuk membangun sistem dan dasbor pemantauan sendiri. Untuk informasi selengkapnya, lihat Apa itu CloudMonitor?.

Penagihan

Penggunaan layanan CloudMonitor dikenai biaya. Untuk informasi penagihan selengkapnya, lihat Penagihan CloudMonitor.

Lihat data pemantauan

Masuk ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih Visualization > Cloud Service Monitoring Dashboard.
Pada halaman cloud service monitoring dashboard, pilih PAI-Deep Learning Containers (DLC), lalu pada kotak pencarian, pilih atau cari workspace ID untuk melihat grafik pemantauan yang sesuai. Untuk menemukan workspace ID Anda, lihat Kelola ruang kerja.

Area grafik pemantauan menampilkan tiga panel metrik GPU pada tab job dimension: GPU Memory Interface Utilization (Job Dimension) (%), GPU Compute Utilization (Job Dimension) (%), dan GPU SM Utilization (Job Dimension) (%). Periode pelaporan metrik ini adalah 10 detik.

Pada grafik pemantauan, Anda dapat:
- Beralih dimensi pemantauan: Menampilkan metrik berdasarkan dimensi job, pod (worker), atau GPU.
  - Klik tab job dimension. Pilih atau masukkan DLC job ID untuk melihat data pemantauan satu job.
  - Klik tab pod dimension. Pilih atau masukkan pod ID untuk melihat data pemantauan satu pod.
  - Klik tab GPU Level. Pilih atau masukkan pod ID untuk melihat data pemantauan dimensi GPU satu pod dalam DLC job tertentu.
- Ubah rentang waktu: Anda dapat memilih 1 jam, 3 jam, 6 jam, 12 jam, 1 hari, 3 hari, 7 hari, 14 hari, atau periode waktu Custom.
- Perbesar: Klik ikon perbesar di pojok kanan atas setiap grafik untuk melihat data pemantauan terperinci.

Konfigurasikan peringatan

Anda dapat mengonfigurasi aturan peringatan untuk memantau tingkat sumber daya pekerjaan PAI-Deep Learning Containers (DLC). Jika metrik sumber daya melanggar aturan, sistem akan mengirim pemberitahuan peringatan. Bagian ini menjelaskan cara mengonfigurasi peringatan menggunakan konsol dan API CloudMonitor.

Konfigurasikan kontak peringatan

Masuk ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih Alerts > Alert Contacts.
Pada tab Alert Contacts, klik Create Contact, masukkan nama, nomor telepon, alamat email, atau URL webhook untuk kontak tersebut, lalu klik Confirm.
Pada tab Alert Contact Group, klik Create Contact Group, masukkan nama grup, tambahkan kontak peringatan yang sudah ada ke dalam grup, lalu klik Confirm.

Konfigurasikan aturan peringatan

Di panel navigasi kiri Konsol CloudMonitor, pilih Cloud Resource Monitoring > Cloud Service Monitoring.
Pada halaman Cloud Service Monitoring, buka PAI-Deep Learning Containers (DLC). Di kotak pencarian, masukkan PAI-Deep Learning Containers (DLC). Di hasil pencarian, di bawah kategori Metric Monitoring, klik PAI-Deep Learning Containers (DLC).
Pada halaman PAI-Deep Learning Containers (DLC), pilih wilayah layanan Anda dan klik Create Alert Rule.

Pada panel Create Alert Rule, konfigurasikan parameter berikut dan klik Confirm.

Parameter	Description
Product	Produk yang dipantau. Pilih PAI-Deep Learning Containers (DLC).
Resource Scope	Cakupan aturan peringatan. Opsi: All Resources dan instance. All Resources: Pemberitahuan peringatan dikirim jika ada resource DLC yang memenuhi aturan peringatan. instance: Di bagian Associate Resources, Anda harus menambahkan ruang kerja yang ingin diasosiasikan. Pemberitahuan peringatan hanya dikirim ketika pekerjaan DLC di ruang kerja yang ditambahkan memenuhi aturan peringatan.
Rule Description	Kondisi yang memicu peringatan. Peringatan dipicu ketika data pemantauan memenuhi kondisi ini. Untuk informasi selengkapnya tentang cara menetapkan deskripsi aturan, lihat Buat aturan peringatan.
Mute For	Interval pengiriman ulang untuk peringatan yang belum terselesaikan.
Effective Period	Periode saat aturan peringatan aktif. CloudMonitor hanya memeriksa peringatan selama periode ini.
Tags	Tag kustom untuk aturan peringatan, ditentukan sebagai pasangan kunci-nilai.
Alert Contact Group	Grup kontak yang menerima notifikasi peringatan. Pilih grup dengan kontak peringatan yang telah dikonfigurasi.

Pada halaman PAI-Deep Learning Containers (DLC), klik View Alert Rules untuk melihat detail dan riwayat aturan peringatan Anda. Anda juga dapat memodifikasi aturan tersebut.

Anda juga dapat mengonfigurasi layanan peringatan dengan memanggil operasi API. Operasi ini memungkinkan Anda melihat riwayat peringatan, mengelola templat peringatan, mengonfigurasi aturan peringatan, dan mengelola kontak peringatan. Untuk informasi selengkapnya, lihat Referensi API CloudMonitor: layanan peringatan.

Berlangganan metrik pemantauan

CloudMonitor menyediakan serangkaian lengkap operasi API yang dapat Anda gunakan untuk berlangganan metrik dan data pemantauan DLC. Hal ini memungkinkan Anda membangun sistem dan dasbor pemantauan sendiri. Untuk langkah-langkah terperinci, lihat Direktori API Pemantauan Layanan Cloud.

API	Description
DescribeMetricLast	Menanyakan data pemantauan terbaru dari metrik tertentu.
DescribeMetricList	Menanyakan data pemantauan dari metrik tertentu untuk layanan cloud tertentu.
DescribeMetricData	Menanyakan data pemantauan dari metrik untuk layanan cloud tertentu.
DescribeMetricMetaList	Menampilkan daftar metrik yang tersedia beserta metadata-nya.
DescribeProjectMeta	Menampilkan daftar layanan cloud yang menyediakan metrik time-series.
DescribeMetricTop	Menanyakan data pemantauan terbaru dari metrik tertentu untuk layanan cloud tertentu, lalu menanyakan data pemantauan metrik yang telah diurutkan.

Contoh berikut menunjukkan cara memanggil operasi API DescribeMetricList untuk menanyakan data pemantauan dari metrik tertentu untuk PAI-Deep Learning Containers (DLC).

Buka halaman Metrik untuk PAI-Deep Learning Containers (DLC).
Pada halaman daftar metrik, temukan metrik target, seperti JOB_GPU_ACCELERATOR_DUTTY_UTIL, lalu klik Get Metric Data di kolom Actions untuk membuka halaman OpenAPI Portal.

Pada halaman OpenAPI Portal, konfigurasikan parameter kunci berikut dan biarkan parameter lainnya pada nilai default-nya. Untuk informasi selengkapnya tentang parameter, lihat DescribeMetricList.

Parameter	Description
Namespace	Atur parameter ini ke `acs_pai_dlc`.
MetricName	Metrik yang akan ditanyakan. Contoh: `CARD_GPU_DRAM_ACTIVE_UTIL`.
StartTime	Waktu mulai. Contoh: `2024-05-15 00:00:00`.
EndTime	Waktu akhir. Contoh: `2024-05-28 00:00:00`. Catatan Interval antara `StartTime` dan `EndTime` harus 31 hari atau kurang.

Setelah mengonfigurasi parameter, klik Initiate Call untuk melihat data pemantauan untuk rentang waktu yang ditentukan. Panggilan yang berhasil mengembalikan kode status 200. Array Datapoints dalam badan respons berisi bidang data seperti timestamp, jobId, regionId, userId, workspaceId, dan Value.

Menggunakan ARMS

Application Real-Time Monitoring Service (ARMS) adalah platform observabilitas cloud-native Alibaba Cloud. Dengan ARMS, Anda dapat membuat dasbor Grafana kustom dan mengonfigurasi aturan peringatan fleksibel menggunakan Prometheus untuk memantau secara komprehensif metrik pekerjaan DLC Anda. Untuk informasi selengkapnya, lihat Apa itu Application Real-Time Monitoring Service (ARMS)?.

Penagihan

Penggunaan ARMS dikenai biaya. Untuk detail penagihan, lihat Penagihan ARMS.

Integrasikan data pemantauan

Untuk mengintegrasikan data pemantauan DLC ke ARMS:

Masuk ke Konsol ARMS, lalu di panel navigasi kiri, klik Integration Center.
Pada halaman Integration Center, klik tab Artificial Intelligence, lalu klik PAI-DLC Distributed Training Service.
Pada panel yang muncul, di tab Start Provisioning, pilih Data Storage Region, masukkan Integration Name, lalu klik OK.

Integrasi memerlukan waktu sekitar 1 hingga 2 menit. Anda juga dapat beralih ke tab Effect Preview, Collected Metrics, dan Alert Rule Templates untuk melihat dasbor metrik, metrik yang didukung, serta nama dan detail templat aturan peringatan.
Setelah integrasi selesai, Anda dapat mengklik Provisioning untuk melihat detail lingkungan yang telah disediakan.

Dasbor Grafana

Masuk ke Konsol ARMS. Di panel navigasi kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan.
Pada tab Component Management, di bagian Component Type, pilih PAI-DLC Distributed Training Service, lalu klik Dashboards di sebelah kanan untuk melihat dasbor Grafana bawaan.
Klik nama dasbor untuk melihat dasbor pemantauan. Dasbor PAI-DLC Distributed Training Service - Instance Details menyediakan filter untuk workspaceId, jobId, pod, dan gpu. Dasbor ini mengelompokkan metrik ke dalam panel Job Dimension, Card Dimension, dan Pod Dimension. Panel Pod Dimension menampilkan tabel detail pod, termasuk CPU utilization, laju I/O disk, dan memory usage, bersama dengan grafik time-series untuk latensi baca CPFS, volume data tulis CPFS, dan volume data baca CPFS.

Konfigurasikan peringatan Prometheus

Anda dapat mengonfigurasi peringatan pemantauan menggunakan Prometheus sebagai berikut:

Masuk ke Konsol ARMS. Di panel navigasi kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan.
Pada tab Component Management, di daftar Component Type, pilih PAI-DLC Distributed Training Service dan klik Alert Rules untuk melihat aturan peringatan bawaan. Secara default, aturan ini berada dalam status Stopped.
Aturan peringatan bawaan menghasilkan event tetapi tidak mengirim notifikasi. Anda dapat mengonfigurasi notifikasi agar dikirim ke alamat email atau platform lain dengan salah satu dari dua cara berikut:
- Siapkan kebijakan notifikasi. Kebijakan ini menentukan aturan pencocokan untuk event peringatan. Ketika event peringatan cocok dengan aturan, sistem mengirim notifikasi ke penerima yang ditentukan melalui metode notifikasi yang Anda pilih. Untuk informasi selengkapnya, lihat Kebijakan Notifikasi.
- Edit aturan peringatan untuk mengonfigurasi metode notifikasi. Pada halaman manajemen aturan peringatan, pilih jenis komponen target dari panel navigasi kiri, seperti PAI-DLC Distributed Training Service, PAI-DSW, PAI-Quota Service, atau PAI-Quota (non-Lingjun). Temukan aturan target dalam daftar dan klik Edit. Pada halaman pengeditan aturan peringatan Prometheus, Anda dapat menyesuaikan kondisi peringatan, durasi, konten, dan notifikasi. Untuk informasi selengkapnya, lihat Buat aturan peringatan Prometheus. Saat mengedit aturan, atur Check Type ke Custom PromQL. Di bidang Custom PromQL Statement, masukkan ekspresi, seperti AliyunPaidlc_POD_STATE_ACTIVE{} > 80. Atur Duration ke 2 menit dan Alert Level ke P2. Di bagian Alert Notification, pilih Simple Mode dan konfigurasikan Recipient, Notification Period (dari 00:00 hingga 23:59), dan Repeat Policy. Setelah menyelesaikan konfigurasi, klik Done.