All Products
Search
Document Center

Platform For AI:Pantau pekerjaan pelatihan dan konfigurasikan peringatan

Last Updated:Apr 03, 2026

DLC melacak penggunaan sumber daya pekerjaan pelatihan secara real-time dan mengirimkan notifikasi peringatan ketika suatu metrik, seperti pemanfaatan GPU, melebihi ambang batas. Anda dapat menggunakan CloudMonitor atau ARMS untuk melihat data pemantauan, mengonfigurasi peringatan, dan berlangganan metrik.

Prasyarat

Setidaknya satu pekerjaan pelatihan DLC telah dibuat. Untuk informasi lebih lanjut, lihat Buat pekerjaan pelatihan.

Batasan

Pemantauan tidak tersedia untuk pekerjaan pelatihan pay-as-you-go yang menggunakan sumber daya komputasi umum.

Akun dan izin

  • Akun Alibaba Cloud: Melakukan semua operasi tanpa otorisasi tambahan.

  • RAM user:

    • Untuk melihat data pemantauan pekerjaan DLC dalam ruang kerja, berikan izin berikut kepada RAM user:

      • Tambahkan RAM user sebagai anggota ruang kerja dengan peran Administrator, Algorithm Developer, atau Algorithm O&M Engineer. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.

      • Berikan akses read-only RAM user ke CloudMonitor (AliyunCloudMonitorReadOnlyAccess). Untuk informasi lebih lanjut, lihat Kelola izin RAM user.

    • Untuk melihat data pemantauan dan mengonfigurasi peringatan untuk pekerjaan DLC dalam ruang kerja, berikan izin berikut kepada RAM user:

      • Tambahkan RAM user sebagai anggota ruang kerja dengan peran Administrator, Algorithm Developer, atau Algorithm O&M Engineer. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.

      • Berikan akses administratif RAM user ke CloudMonitor (AliyunCloudMonitorFullAccess). Untuk informasi lebih lanjut, lihat Kelola izin RAM user.

Metrik pemantauan

Metrik pemantauan mencakup GPU, CPU, memori, disk, jaringan, RDMA, dan CPFS. Dimensi yang didukung meliputi job, pod (worker), dan kartu GPU individual. Tabel berikut mencantumkan metrik kesehatan umum. Untuk daftar lengkap dan deskripsi detail, lihat Metrik untuk Deep Learning Containers (DLC).

Dimensi job

Metric

Description

CPU utilization (job dimension)

Pemanfaatan CPU, dalam persentase.

Memory utilization (job dimension)

Pemanfaatan memori, dalam persentase.

Disk read rate (job dimension)

Laju baca disk, dalam MiB/s.

Disk write rate (job dimension)

Laju tulis disk, dalam MiB/s.

Network receive rate (job dimension)

Laju penerimaan jaringan, dalam MiB/s.

Network send rate (job dimension)

Laju pengiriman jaringan, dalam MiB/s.

GPU compute utilization (job dimension)

Pemanfaatan komputasi GPU, dalam persentase.

GPU memory utilization (job dimension)

Pemanfaatan memori GPU, dalam persentase.

GPU SM utilization (job dimension)

Pemanfaatan Streaming Multiprocessor (SM) GPU, dalam persentase.

GPU power consumption (job dimension)

Konsumsi daya GPU, dalam watt.

GPU temperature (job dimension)

Suhu GPU, dalam derajat Celsius.

Overall GPU health (job dimension)

Kesehatan GPU secara keseluruhan. 100% = semua GPU sehat; kurang dari 100% = satu atau lebih GPU tidak normal.

RDMA receive rate (job dimension)

Laju penerimaan RDMA.

RDMA send rate (job dimension)

Laju pengiriman RDMA.

CPFS write rate (job dimension)

Laju tulis CPFS, dalam MiB/s.

CPFS read rate (job dimension)

Laju baca CPFS, dalam MiB/s.

NVLink receive volume (job dimension)

Volume data yang diterima melalui NVLink.

NVLink send volume (job dimension)

Volume data yang dikirim melalui NVLink.

PCIe receive volume (job dimension)

Volume data yang diterima melalui PCIe.

PCIe send volume (job dimension)

Volume data yang dikirim melalui PCIe.

Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC).

Dimensi Pod (worker)

Metric

Description

CPU utilization (pod dimension)

Pemanfaatan CPU, dalam persentase.

Memory utilization (pod dimension)

Pemanfaatan memori, dalam persentase.

Disk read rate (pod dimension)

Laju baca disk, dalam MiB/s.

Disk write rate (pod dimension)

Laju tulis disk, dalam MiB/s.

Network receive rate (pod dimension)

Laju penerimaan jaringan, dalam MiB/s.

Network send rate (pod dimension)

Laju pengiriman jaringan, dalam MiB/s.

GPU compute utilization (pod dimension)

Pemanfaatan komputasi GPU, dalam persentase.

GPU memory utilization (pod dimension)

Pemanfaatan memori GPU, dalam persentase.

GPU SM utilization (pod dimension)

Pemanfaatan SM GPU, dalam persentase.

GPU power consumption (pod dimension)

Konsumsi daya GPU, dalam watt.

GPU temperature (pod dimension)

Suhu GPU, dalam derajat Celsius.

Overall GPU health (pod dimension)

Kesehatan GPU secara keseluruhan. 100% = semua GPU sehat; kurang dari 100% = satu atau lebih GPU tidak normal.

RDMA receive rate (pod dimension)

Laju penerimaan RDMA, dalam MiB/s.

RDMA send rate (pod dimension)

Laju pengiriman RDMA, dalam MiB/s.

CPFS read rate (pod dimension)

Laju baca CPFS, dalam MiB/s.

CPFS write rate (pod dimension)

Laju tulis CPFS, dalam MiB/s.

NVLink receive volume (pod dimension)

Volume data yang diterima melalui NVLink.

NVLink send volume (pod dimension)

Volume data yang dikirim melalui NVLink.

PCIe receive volume (pod dimension)

Volume data yang diterima melalui PCIe.

PCIe send volume (pod dimension)

Volume data yang dikirim melalui PCIe.

Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC).

Dimensi kartu GPU

Metric

Description

GPU memory interface utilization (card dimension)

Pemanfaatan antarmuka memori GPU per kartu.

GPU SM utilization (card dimension)

Pemanfaatan SM GPU per kartu.

GPU power consumption (card dimension)

Konsumsi daya GPU per kartu, dalam watt.

GPU temperature (card dimension)

Suhu GPU per kartu, dalam derajat Celsius.

Overall GPU health (card dimension)

Kesehatan kartu GPU secara keseluruhan. 100% = kartu sehat; kurang dari 100% = kartu tidak normal.

Untuk metrik lainnya, lihat Metrik untuk Deep Learning Containers (DLC).

Lihat grafik pemantauan

  1. Pada halaman detail pekerjaan, buka tab Monitoring untuk melihat data pemantauan pekerjaan. Catatan: Data pemantauan pekerjaan disimpan hingga 30 hari.

    image

  2. Tab Job Level, Instance Dimension, dan GPU Level menampilkan metrik untuk GPU, CPU, memori, jaringan, dan disk.

  3. Klik More untuk memilih metrik utama dan seret untuk menyesuaikan prioritas tampilan.

    image

  4. Perbesar area tertentu, urungkan pembesaran, atur ulang tampilan, atau unduh grafik.

    image

  5. Sinkronisasi grafik: Aktifkan fitur ini untuk menyinkronkan tindakan zoom di semua grafik guna memudahkan perbandingan.

    image

  6. Atur jumlah grafik yang ditampilkan per baris.

Gunakan CloudMonitor

CloudMonitor memantau sumber daya Alibaba Cloud dan aplikasi internet. Gunakan Konsol CloudMonitor untuk melihat data pemantauan pekerjaan DLC dan mengonfigurasi notifikasi peringatan. CloudMonitor juga menyediakan API untuk berlangganan data metrik guna membangun sistem dan dasbor pemantauan kustom. Untuk informasi lebih lanjut, lihat Apa itu CloudMonitor?.

Penagihan

CloudMonitor dikenai biaya. Untuk detail penagihan, lihat Penagihan CloudMonitor.

Lihat data pemantauan

  1. Masuk ke Konsol Cloud Monitor.

  2. Di panel navigasi kiri, pilih Visualization > Cloud Service Monitoring Dashboard.

  3. Pada halaman Cloud Service Monitoring Dashboard, pilih PAI-Deep Learning Containers (DLC) lalu pilih atau cari Workspace ID untuk melihat grafik pemantauan yang sesuai. Untuk menemukan Workspace ID, lihat Kelola ruang kerja.

    image

    Pada grafik pemantauan, lakukan operasi berikut:

    • Ganti dimensi pemantauan: Sistem menampilkan metrik pemantauan berdasarkan dimensi job, pod (worker), dan GPU.

      • Klik tab Job dimension. Pilih atau masukkan ID pekerjaan DLC untuk melihat data pemantauan satu pekerjaan.

      • Klik tab Pod dimension. Pilih atau masukkan ID pod untuk melihat data pemantauan satu pod.

      • Klik tab GPU Level. Pilih atau masukkan ID pod untuk melihat data pemantauan tingkat GPU satu pod.

    • Ubah rentang waktu: image

    • Perbesar: Klik ikon perbesar image.png di pojok kanan atas setiap grafik untuk melihat data pemantauan detail.

Konfigurasikan peringatan

Konfigurasikan aturan peringatan untuk memantau tingkat sumber daya pekerjaan DLC. Ketika suatu metrik melanggar aturan, sistem akan mengirimkan notifikasi. Konfigurasikan peringatan melalui Konsol CloudMonitor atau API.

Konfigurasikan kontak peringatan

  1. Masuk ke Konsol Cloud Monitor.

  2. Di panel navigasi kiri, pilih Alert Service > Alert Contacts.

  3. Pada tab Alert Contacts, klik Create Alert Contact, masukkan nama, nomor telepon, email, atau URL webhook untuk kontak tersebut, lalu klik OK.

  4. Pada tab Alert Contact Group, klik Create Alert Contact Group, masukkan nama grup, tambahkan kontak peringatan yang sudah ada ke dalam grup, lalu klik OK.

Konfigurasikan aturan peringatan

  1. Di panel navigasi kiri Konsol CloudMonitor, pilih Cloud Service Monitoring.

  2. Pada halaman Cloud Service Monitoring, cari dan pilih PAI-Deep Learning Containers (DLC).image

  3. Pada halaman PAI-Deep Learning Containers (DLC), pilih wilayah tempat layanan Anda berada dan klik Create Alert Rule.

  4. Pada panel Create Alert Rule, konfigurasikan parameter berikut lalu klik OK.

    Parameter

    Description

    Product

    Pilih PAI-Deep Learning Containers (DLC).

    Resource scope

    Cakupan aturan peringatan: All Resources atau Instance.

    • All Resources: Peringatan dikirim jika ada resource DLC yang memenuhi aturan peringatan.

    • Instance: Di bagian Associate Resources, tambahkan ruang kerja. Peringatan hanya dikirim ketika pekerjaan DLC di ruang kerja tersebut memenuhi aturan peringatan.

    Rule

    Kondisi yang memicu peringatan. Untuk informasi lebih lanjut, lihat Buat aturan peringatan.

    Mute for

    Interval pengiriman ulang notifikasi peringatan jika peringatan belum terselesaikan.

    Effective period

    Periode waktu saat aturan peringatan aktif.

    Tags

    Tag kustom untuk aturan peringatan, terdiri dari pasangan kunci-nilai.

    Contact group

    Grup kontak yang menerima notifikasi peringatan.

  5. Pada halaman PAI-Deep Learning Containers (DLC), klik Alert Rules untuk melihat detail dan riwayat aturan peringatan.

Untuk mengonfigurasi aturan peringatan secara terprogram, gunakan API CloudMonitor untuk riwayat peringatan, templat, aturan, dan kontak. Untuk detailnya, lihat Referensi API CloudMonitor: Alert Service.

Berlangganan metrik pemantauan

CloudMonitor menyediakan API untuk berlangganan metrik pemantauan DLC guna membangun sistem dan dasbor pemantauan kustom. Untuk prosedurnya, lihat Direktori API Pemantauan Layanan Cloud.

CloudMonitor API

Overview

DescribeMetricLast

Menanyakan data pemantauan terbaru suatu metrik.

DescribeMetricList

Menanyakan data pemantauan suatu metrik untuk layanan cloud.

DescribeMetricData

Menanyakan data pemantauan suatu metrik untuk layanan cloud.

DescribeMetricMetaList

Menanyakan detail metrik yang tersedia di CloudMonitor.

DescribeProjectMeta

Menanyakan layanan cloud yang mendukung metrik deret waktu di CloudMonitor.

DescribeMetricTop

Menanyakan data pemantauan terbaru suatu metrik untuk layanan cloud, diurutkan berdasarkan nilai.

Contoh berikut menggunakan API DescribeMetricList untuk menanyakan data pemantauan metrik DLC.

  1. Buka halaman Metrik untuk Deep Learning Containers (DLC).

  2. Dalam daftar metrik, temukan metrik target dan klik Get Metric Data di kolom Actions.image

  3. Pada halaman OpenAPI Explorer, konfigurasikan parameter kunci berikut dan biarkan parameter lain pada nilai default-nya. Untuk informasi lebih lanjut, lihat DescribeMetricList.

    Parameter

    Description

    Namespace

    Atur ke acs_pai_dlc.

    MetricName

    Metrik pemantauan target. Misalnya, CARD_GPU_DRAM_ACTIVE_UTIL.

    StartTime

    Waktu mulai. Misalnya, 2024-05-15 00:00:00.

    EndTime

    Waktu akhir. Misalnya, 2024-05-28 00:00:00.

    Catatan

    Interval antara StartTime dan EndTime harus 31 hari atau kurang.

  4. Setelah mengonfigurasi parameter, klik Initiate Call untuk melihat data pemantauan dalam rentang waktu yang ditentukan.

Gunakan ARMS

Application Real-Time Monitoring Service (ARMS) adalah platform observabilitas. Gunakan ARMS untuk membuat dasbor Grafana dan aturan peringatan Prometheus untuk pekerjaan pelatihan terdistribusi DLC. Untuk informasi lebih lanjut, lihat Apa itu Application Real-Time Monitoring Service (ARMS)?.

Penagihan

ARMS dikenai biaya. Untuk detail penagihan, lihat Penagihan ARMS.

Integrasikan data pemantauan

Untuk mengintegrasikan data pemantauan DLC ke ARMS:

  1. Masuk ke Konsol ARMS, lalu di panel navigasi kiri, klik Integration Center.

  2. Pada halaman Integration Center, klik tab Artificial Intelligence, lalu klik Alibaba Cloud PAI-DLC Distributed Training Service.image

  3. Pada panel yang muncul, di tab Start Provisioning, pilih Data Storage Region, masukkan Integration Name, lalu klik OK.

    Integrasi memerlukan waktu sekitar 1 hingga 2 menit. Beralihlah ke tab Effect Preview, Collected Metrics, dan Alert Rule Templates untuk melihat dasbor metrik, metrik yang didukung, dan templat aturan peringatan.

  4. Setelah integrasi selesai, buka halaman Provisioning untuk melihat detail lingkungan terintegrasi.

Lihat dasbor Grafana

  1. Masuk ke Konsol ARMS. Di panel navigasi kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan.

  2. Pada tab Component Management, di bagian Component Type, pilih Alibaba Cloud PAI-DLC Distributed Training Service, lalu klik Dashboards di sebelah kanan untuk melihat dasbor Grafana bawaan.image

  3. Klik nama dasbor untuk melihat dasbor pemantauan.image

Konfigurasikan peringatan Prometheus

Konfigurasikan aturan peringatan Prometheus untuk pekerjaan pelatihan DLC:

  1. Masuk ke Konsol ARMS. Di panel navigasi kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan.

  2. Pada tab Component Management, dalam daftar Component Type, pilih Alibaba Cloud PAI-DLC Distributed Training Service dan klik Alert Rules untuk melihat aturan peringatan bawaan.image

  3. Aturan peringatan bawaan menghasilkan event tetapi tidak mengirimkan notifikasi. Konfigurasikan notifikasi dengan salah satu cara berikut:

    • Siapkan kebijakan notifikasi dengan aturan pencocokan untuk event peringatan. Saat aturan cocok, sistem akan mengirimkan peringatan ke penerima yang ditentukan. Untuk informasi lebih lanjut, lihat Kebijakan notifikasi.

    • Edit aturan peringatan untuk mengonfigurasi metode notifikasi.image Pada halaman pengeditan aturan peringatan Prometheus, sesuaikan kondisi peringatan, durasi, konten, dan notifikasi. Untuk detailnya, lihat Buat aturan peringatan Prometheus.image