DLC melacak penggunaan sumber daya pekerjaan pelatihan secara real-time dan mengirimkan notifikasi peringatan ketika suatu metrik, seperti pemanfaatan GPU, melebihi ambang batas. Anda dapat menggunakan CloudMonitor atau ARMS untuk melihat data pemantauan, mengonfigurasi peringatan, dan berlangganan metrik.
Prasyarat
Setidaknya satu pekerjaan pelatihan DLC telah dibuat. Untuk informasi lebih lanjut, lihat Buat pekerjaan pelatihan.
Batasan
Pemantauan tidak tersedia untuk pekerjaan pelatihan pay-as-you-go yang menggunakan sumber daya komputasi umum.
Akun dan izin
-
Akun Alibaba Cloud: Melakukan semua operasi tanpa otorisasi tambahan.
-
RAM user:
-
Untuk melihat data pemantauan pekerjaan DLC dalam ruang kerja, berikan izin berikut kepada RAM user:
-
Tambahkan RAM user sebagai anggota ruang kerja dengan peran Administrator, Algorithm Developer, atau Algorithm O&M Engineer. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.
-
Berikan akses read-only RAM user ke CloudMonitor (
AliyunCloudMonitorReadOnlyAccess). Untuk informasi lebih lanjut, lihat Kelola izin RAM user.
-
-
Untuk melihat data pemantauan dan mengonfigurasi peringatan untuk pekerjaan DLC dalam ruang kerja, berikan izin berikut kepada RAM user:
-
Tambahkan RAM user sebagai anggota ruang kerja dengan peran Administrator, Algorithm Developer, atau Algorithm O&M Engineer. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.
-
Berikan akses administratif RAM user ke CloudMonitor (
AliyunCloudMonitorFullAccess). Untuk informasi lebih lanjut, lihat Kelola izin RAM user.
-
-
Metrik pemantauan
Metrik pemantauan mencakup GPU, CPU, memori, disk, jaringan, RDMA, dan CPFS. Dimensi yang didukung meliputi job, pod (worker), dan kartu GPU individual. Tabel berikut mencantumkan metrik kesehatan umum. Untuk daftar lengkap dan deskripsi detail, lihat Metrik untuk Deep Learning Containers (DLC).
Dimensi job
|
Metric |
Description |
|
CPU utilization (job dimension) |
Pemanfaatan CPU, dalam persentase. |
|
Memory utilization (job dimension) |
Pemanfaatan memori, dalam persentase. |
|
Disk read rate (job dimension) |
Laju baca disk, dalam MiB/s. |
|
Disk write rate (job dimension) |
Laju tulis disk, dalam MiB/s. |
|
Network receive rate (job dimension) |
Laju penerimaan jaringan, dalam MiB/s. |
|
Network send rate (job dimension) |
Laju pengiriman jaringan, dalam MiB/s. |
|
GPU compute utilization (job dimension) |
Pemanfaatan komputasi GPU, dalam persentase. |
|
GPU memory utilization (job dimension) |
Pemanfaatan memori GPU, dalam persentase. |
|
GPU SM utilization (job dimension) |
Pemanfaatan Streaming Multiprocessor (SM) GPU, dalam persentase. |
|
GPU power consumption (job dimension) |
Konsumsi daya GPU, dalam watt. |
|
GPU temperature (job dimension) |
Suhu GPU, dalam derajat Celsius. |
|
Overall GPU health (job dimension) |
Kesehatan GPU secara keseluruhan. 100% = semua GPU sehat; kurang dari 100% = satu atau lebih GPU tidak normal. |
|
RDMA receive rate (job dimension) |
Laju penerimaan RDMA. |
|
RDMA send rate (job dimension) |
Laju pengiriman RDMA. |
|
CPFS write rate (job dimension) |
Laju tulis CPFS, dalam MiB/s. |
|
CPFS read rate (job dimension) |
Laju baca CPFS, dalam MiB/s. |
|
NVLink receive volume (job dimension) |
Volume data yang diterima melalui NVLink. |
|
NVLink send volume (job dimension) |
Volume data yang dikirim melalui NVLink. |
|
PCIe receive volume (job dimension) |
Volume data yang diterima melalui PCIe. |
|
PCIe send volume (job dimension) |
Volume data yang dikirim melalui PCIe. |
|
Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC). |
|
Dimensi Pod (worker)
|
Metric |
Description |
|
CPU utilization (pod dimension) |
Pemanfaatan CPU, dalam persentase. |
|
Memory utilization (pod dimension) |
Pemanfaatan memori, dalam persentase. |
|
Disk read rate (pod dimension) |
Laju baca disk, dalam MiB/s. |
|
Disk write rate (pod dimension) |
Laju tulis disk, dalam MiB/s. |
|
Network receive rate (pod dimension) |
Laju penerimaan jaringan, dalam MiB/s. |
|
Network send rate (pod dimension) |
Laju pengiriman jaringan, dalam MiB/s. |
|
GPU compute utilization (pod dimension) |
Pemanfaatan komputasi GPU, dalam persentase. |
|
GPU memory utilization (pod dimension) |
Pemanfaatan memori GPU, dalam persentase. |
|
GPU SM utilization (pod dimension) |
Pemanfaatan SM GPU, dalam persentase. |
|
GPU power consumption (pod dimension) |
Konsumsi daya GPU, dalam watt. |
|
GPU temperature (pod dimension) |
Suhu GPU, dalam derajat Celsius. |
|
Overall GPU health (pod dimension) |
Kesehatan GPU secara keseluruhan. 100% = semua GPU sehat; kurang dari 100% = satu atau lebih GPU tidak normal. |
|
RDMA receive rate (pod dimension) |
Laju penerimaan RDMA, dalam MiB/s. |
|
RDMA send rate (pod dimension) |
Laju pengiriman RDMA, dalam MiB/s. |
|
CPFS read rate (pod dimension) |
Laju baca CPFS, dalam MiB/s. |
|
CPFS write rate (pod dimension) |
Laju tulis CPFS, dalam MiB/s. |
|
NVLink receive volume (pod dimension) |
Volume data yang diterima melalui NVLink. |
|
NVLink send volume (pod dimension) |
Volume data yang dikirim melalui NVLink. |
|
PCIe receive volume (pod dimension) |
Volume data yang diterima melalui PCIe. |
|
PCIe send volume (pod dimension) |
Volume data yang dikirim melalui PCIe. |
|
Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC). |
|
Dimensi kartu GPU
|
Metric |
Description |
|
GPU memory interface utilization (card dimension) |
Pemanfaatan antarmuka memori GPU per kartu. |
|
GPU SM utilization (card dimension) |
Pemanfaatan SM GPU per kartu. |
|
GPU power consumption (card dimension) |
Konsumsi daya GPU per kartu, dalam watt. |
|
GPU temperature (card dimension) |
Suhu GPU per kartu, dalam derajat Celsius. |
|
Overall GPU health (card dimension) |
Kesehatan kartu GPU secara keseluruhan. 100% = kartu sehat; kurang dari 100% = kartu tidak normal. |
|
Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC). |
|
Lihat grafik pemantauan
-
Pada halaman detail pekerjaan, buka tab Monitoring untuk melihat data pemantauan pekerjaan. Catatan: Data pemantauan pekerjaan disimpan hingga 30 hari.

-
Tab Job Level, Instance Dimension, dan GPU Level menampilkan metrik untuk GPU, CPU, memori, jaringan, dan disk.
-
Klik More untuk memilih metrik utama dan seret untuk menyesuaikan prioritas tampilan.

-
Perbesar area tertentu, urungkan pembesaran, atur ulang tampilan, atau unduh grafik.

-
Sinkronisasi grafik: Aktifkan fitur ini untuk menyinkronkan tindakan zoom di semua grafik guna memudahkan perbandingan.

-
Atur jumlah grafik yang ditampilkan per baris.
Gunakan CloudMonitor
CloudMonitor memantau sumber daya Alibaba Cloud dan aplikasi internet. Gunakan Konsol CloudMonitor untuk melihat data pemantauan pekerjaan DLC dan mengonfigurasi notifikasi peringatan. CloudMonitor juga menyediakan API untuk berlangganan data metrik guna membangun sistem dan dasbor pemantauan kustom. Untuk informasi lebih lanjut, lihat Apa itu CloudMonitor?.
Penagihan
CloudMonitor dikenai biaya. Untuk detail penagihan, lihat Penagihan CloudMonitor.
Lihat data pemantauan
-
Masuk ke Konsol Cloud Monitor.
-
Di panel navigasi kiri, pilih .
-
Pada halaman Cloud Service Monitoring Dashboard, pilih PAI-Deep Learning Containers (DLC) lalu pilih atau cari Workspace ID untuk melihat grafik pemantauan yang sesuai. Untuk menemukan Workspace ID, lihat Kelola ruang kerja.

Pada grafik pemantauan, lakukan operasi berikut:
-
Ganti dimensi pemantauan: Sistem menampilkan metrik pemantauan berdasarkan dimensi job, pod (worker), dan GPU.
-
Klik tab Job dimension. Pilih atau masukkan ID pekerjaan DLC untuk melihat data pemantauan satu pekerjaan.
-
Klik tab Pod dimension. Pilih atau masukkan ID pod untuk melihat data pemantauan satu pod.
-
Klik tab GPU Level. Pilih atau masukkan ID pod untuk melihat data pemantauan tingkat GPU satu pod.
-
-
Ubah rentang waktu:

-
Perbesar: Klik ikon perbesar
di pojok kanan atas setiap grafik untuk melihat data pemantauan detail.
-
Konfigurasikan peringatan
Konfigurasikan aturan peringatan untuk memantau tingkat sumber daya pekerjaan DLC. Ketika suatu metrik melanggar aturan, sistem akan mengirimkan notifikasi. Konfigurasikan peringatan melalui Konsol CloudMonitor atau API.
Konfigurasikan kontak peringatan
-
Masuk ke Konsol Cloud Monitor.
Di panel navigasi kiri, pilih .
-
Pada tab Alert Contacts, klik Create Alert Contact, masukkan nama, nomor telepon, email, atau URL webhook untuk kontak tersebut, lalu klik OK.
-
Pada tab Alert Contact Group, klik Create Alert Contact Group, masukkan nama grup, tambahkan kontak peringatan yang sudah ada ke dalam grup, lalu klik OK.
Konfigurasikan aturan peringatan
-
Di panel navigasi kiri Konsol CloudMonitor, pilih Cloud Service Monitoring.
-
Pada halaman Cloud Service Monitoring, cari dan pilih PAI-Deep Learning Containers (DLC).

-
Pada halaman PAI-Deep Learning Containers (DLC), pilih wilayah tempat layanan Anda berada dan klik Create Alert Rule.
-
Pada panel Create Alert Rule, konfigurasikan parameter berikut lalu klik OK.
Parameter
Description
Product
Pilih PAI-Deep Learning Containers (DLC).
Resource scope
Cakupan aturan peringatan: All Resources atau Instance.
-
All Resources: Peringatan dikirim jika ada resource DLC yang memenuhi aturan peringatan.
-
Instance: Di bagian Associate Resources, tambahkan ruang kerja. Peringatan hanya dikirim ketika pekerjaan DLC di ruang kerja tersebut memenuhi aturan peringatan.
Rule
Kondisi yang memicu peringatan. Untuk informasi lebih lanjut, lihat Buat aturan peringatan.
Mute for
Interval pengiriman ulang notifikasi peringatan jika peringatan belum terselesaikan.
Effective period
Periode waktu saat aturan peringatan aktif.
Tags
Tag kustom untuk aturan peringatan, terdiri dari pasangan kunci-nilai.
Contact group
Grup kontak yang menerima notifikasi peringatan.
-
-
Pada halaman PAI-Deep Learning Containers (DLC), klik Alert Rules untuk melihat detail dan riwayat aturan peringatan.
Untuk mengonfigurasi aturan peringatan secara terprogram, gunakan API CloudMonitor untuk riwayat peringatan, templat, aturan, dan kontak. Untuk detailnya, lihat Referensi API CloudMonitor: Alert Service.
Berlangganan metrik pemantauan
CloudMonitor menyediakan API untuk berlangganan metrik pemantauan DLC guna membangun sistem dan dasbor pemantauan kustom. Untuk prosedurnya, lihat Direktori API Pemantauan Layanan Cloud.
|
CloudMonitor API |
Overview |
|
Menanyakan data pemantauan terbaru suatu metrik. |
|
|
Menanyakan data pemantauan suatu metrik untuk layanan cloud. |
|
|
Menanyakan data pemantauan suatu metrik untuk layanan cloud. |
|
|
Menanyakan detail metrik yang tersedia di CloudMonitor. |
|
|
Menanyakan layanan cloud yang mendukung metrik deret waktu di CloudMonitor. |
|
|
Menanyakan data pemantauan terbaru suatu metrik untuk layanan cloud, diurutkan berdasarkan nilai. |
Contoh berikut menggunakan API DescribeMetricList untuk menanyakan data pemantauan metrik DLC.
-
Buka halaman Metrik untuk Deep Learning Containers (DLC).
-
Dalam daftar metrik, temukan metrik target dan klik Get Metric Data di kolom Actions.

-
Pada halaman OpenAPI Explorer, konfigurasikan parameter kunci berikut dan biarkan parameter lain pada nilai default-nya. Untuk informasi lebih lanjut, lihat DescribeMetricList.
Parameter
Description
Namespace
Atur ke
acs_pai_dlc.MetricName
Metrik pemantauan target. Misalnya,
CARD_GPU_DRAM_ACTIVE_UTIL.StartTime
Waktu mulai. Misalnya, 2024-05-15 00:00:00.
EndTime
Waktu akhir. Misalnya, 2024-05-28 00:00:00.
CatatanInterval antara StartTime dan EndTime harus 31 hari atau kurang.
-
Setelah mengonfigurasi parameter, klik Initiate Call untuk melihat data pemantauan dalam rentang waktu yang ditentukan.
Gunakan ARMS
Application Real-Time Monitoring Service (ARMS) adalah platform observabilitas. Gunakan ARMS untuk membuat dasbor Grafana dan aturan peringatan Prometheus untuk pekerjaan pelatihan terdistribusi DLC. Untuk informasi lebih lanjut, lihat Apa itu Application Real-Time Monitoring Service (ARMS)?.
Penagihan
ARMS dikenai biaya. Untuk detail penagihan, lihat Penagihan ARMS.
Integrasikan data pemantauan
Untuk mengintegrasikan data pemantauan DLC ke ARMS:
-
Masuk ke
Konsol ARMS , lalu di panel navigasi kiri, klik Integration Center. -
Pada halaman Integration Center, klik tab Artificial Intelligence, lalu klik Alibaba Cloud PAI-DLC Distributed Training Service.

-
Pada panel yang muncul, di tab Start Provisioning, pilih Data Storage Region, masukkan Integration Name, lalu klik OK.
Integrasi memerlukan waktu sekitar 1 hingga 2 menit. Beralihlah ke tab Effect Preview, Collected Metrics, dan Alert Rule Templates untuk melihat dasbor metrik, metrik yang didukung, dan templat aturan peringatan.
-
Setelah integrasi selesai, buka halaman Provisioning untuk melihat detail lingkungan terintegrasi.
Lihat dasbor Grafana
-
Masuk ke
Konsol ARMS . Di panel navigasi kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan. -
Pada tab Component Management, di bagian Component Type, pilih Alibaba Cloud PAI-DLC Distributed Training Service, lalu klik Dashboards di sebelah kanan untuk melihat dasbor Grafana bawaan.

-
Klik nama dasbor untuk melihat dasbor pemantauan.

Konfigurasikan peringatan Prometheus
Konfigurasikan aturan peringatan Prometheus untuk pekerjaan pelatihan DLC:
-
Masuk ke
Konsol ARMS . Di panel navigasi kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan. -
Pada tab Component Management, dalam daftar Component Type, pilih Alibaba Cloud PAI-DLC Distributed Training Service dan klik Alert Rules untuk melihat aturan peringatan bawaan.

-
Aturan peringatan bawaan menghasilkan event tetapi tidak mengirimkan notifikasi. Konfigurasikan notifikasi dengan salah satu cara berikut:
-
Siapkan kebijakan notifikasi dengan aturan pencocokan untuk event peringatan. Saat aturan cocok, sistem akan mengirimkan peringatan ke penerima yang ditentukan. Untuk informasi lebih lanjut, lihat Kebijakan notifikasi.
-
Edit aturan peringatan untuk mengonfigurasi metode notifikasi.
Pada halaman pengeditan aturan peringatan Prometheus, sesuaikan kondisi peringatan, durasi, konten, dan notifikasi. Untuk detailnya, lihat Buat aturan peringatan Prometheus.
-