全部产品
Search
文档中心

Platform For AI:Pantau pekerjaan pelatihan dan konfigurasikan peringatan

更新时间:Mar 11, 2026

Pantau penggunaan sumber daya pekerjaan pelatihan DLC secara real time dan terima peringatan ketika ambang batas terlampaui. Lihat metrik untuk CPU, GPU, memori, disk, jaringan, RDMA, dan CPFS pada tingkat job, pod, dan kartu GPU menggunakan Cloud Monitor atau ARMS.

Prasyarat

Buat satu atau beberapa pekerjaan pelatihan DLC. Untuk informasi selengkapnya, lihat Buat tugas pelatihan.

Batasan

Pekerjaan pelatihan pay-as-you-go yang menggunakan sumber daya komputasi umum tidak mendukung pemantauan.

Izin yang diperlukan

  • Akun Alibaba Cloud: Semua operasi tersedia tanpa otorisasi tambahan.

  • Pengguna Resource Access Management (RAM):

    • Untuk melihat data pemantauan pekerjaan DLC dalam ruang kerja:

      • Tambahkan pengguna RAM sebagai anggota ruang kerja dan berikan peran administrator, developer algoritma, atau engineer O&M algoritma. Untuk informasi selengkapnya, lihat Kelola Anggota Ruang Kerja.

      • Berikan izin akses read-only kepada pengguna RAM untuk Cloud Monitor (AliyunCloudMonitorReadOnlyAccess). Untuk informasi selengkapnya, lihat Kelola izin pengguna RAM.

    • Untuk melihat data pemantauan dan mengonfigurasi pemberitahuan peringatan:

      • Tambahkan pengguna RAM sebagai anggota ruang kerja dan berikan peran administrator, developer algoritma, atau engineer O&M algoritma. Untuk informasi selengkapnya, lihat Kelola Anggota Ruang Kerja.

      • Berikan izin manajemen kepada pengguna RAM untuk Cloud Monitor (AliyunCloudMonitorFullAccess). Untuk informasi selengkapnya, lihat Kelola izin pengguna RAM.

Metrik yang tersedia

Metrik yang tersedia mencakup CPU, memori, disk, jaringan, RDMA, CPFS, dan metrik terkait GPU (penggunaan memori, daya komputasi, penggunaan perangkat SM). Metrik tersedia pada dimensi job, pod, dan kartu GPU. Untuk daftar lengkap, lihat Deep Learning Containers (DLC) Metrics.

Dimensi Job (task)

Metric

Description

CPU usage (job dimension)

Penggunaan CPU dari job yang ditentukan dalam persentase.

Memory usage (job dimension)

Penggunaan memori dari job yang ditentukan dalam persentase.

Disk read rate (job dimension)

Laju baca disk dari job yang ditentukan dalam MiB/s.

Disk write rate (job dimension)

Laju tulis disk dari job yang ditentukan dalam MiB/s.

Network receive rate (job dimension)

Laju penerimaan jaringan dari job yang ditentukan dalam MiB/s.

Network send rate (job dimension)

Laju pengiriman jaringan dari job yang ditentukan dalam MiB/s.

GPU computing power usage (job dimension)

Penggunaan daya komputasi GPU dari job yang ditentukan.

GPU memory usage (job dimension)

Penggunaan memori GPU dari job yang ditentukan.

GPU SM device usage (job dimension)

Penggunaan perangkat SM GPU dari job yang ditentukan.

GPU device power consumption (job dimension)

Konsumsi daya perangkat GPU dari job yang ditentukan.

GPU temperature (job dimension)

Suhu GPU dari job yang ditentukan.

Overall GPU card health (job dimension)

Kesehatan keseluruhan GPU dalam job yang ditentukan. 100% menunjukkan GPU sehat. Kurang dari 100% menunjukkan satu atau lebih kartu tidak normal.

RDMA receive rate (job dimension)

Laju penerimaan RDMA dari job yang ditentukan.

RDMA send rate (job dimension)

Laju pengiriman RDMA dari job yang ditentukan.

CPFS write rate (job dimension)

Laju tulis perangkat CPFS dari job yang ditentukan dalam MiB/s.

CPFS read rate (job dimension)

Laju baca perangkat CPFS dari job yang ditentukan dalam MiB/s.

NVLink received data volume (job dimension)

Volume data yang diterima melalui NVLink oleh perangkat GPU dalam job yang ditentukan.

NVLink sent data volume (job dimension)

Volume data yang dikirim melalui NVLink oleh perangkat GPU dalam job yang ditentukan.

PCIE received data volume (job dimension)

Volume data yang diterima melalui PCIE oleh perangkat GPU dalam job yang ditentukan.

PCIE sent data volume (job dimension)

Volume data yang dikirim melalui PCIE oleh perangkat GPU dalam job yang ditentukan.

Untuk metrik lainnya, lihat Deep Learning Containers (DLC) Metrics.

Dimensi Pod (worker)

Metric

Description

CPU usage (pod dimension)

Penggunaan CPU dari pod yang ditentukan dalam persentase.

Memory usage (pod dimension)

Penggunaan memori dari pod yang ditentukan, dalam persentase.

Disk read rate (pod dimension)

Laju baca disk dari pod yang ditentukan, dalam MiB/s.

Disk write rate (pod dimension)

Laju tulis disk dari pod yang ditentukan, dalam MiB/s.

Network receive rate (pod dimension)

Laju penerimaan jaringan dari pod yang ditentukan, dalam MiB/s.

Network send rate (pod dimension)

Laju pengiriman jaringan dari pod yang ditentukan, dalam MiB/s.

GPU computing power usage (pod dimension)

Penggunaan daya komputasi GPU dari pod yang ditentukan.

GPU memory usage (pod dimension)

Penggunaan memori GPU dari pod yang ditentukan.

GPU SM device usage (pod dimension)

Penggunaan perangkat SM GPU dari pod yang ditentukan.

GPU device power consumption (pod dimension)

Konsumsi daya perangkat GPU dari pod yang ditentukan.

GPU temperature (pod dimension)

Suhu GPU dari pod yang ditentukan.

Overall GPU card health (pod dimension)

Kesehatan keseluruhan GPU dalam pod yang ditentukan. 100% menunjukkan GPU sehat. Kurang dari 100% menunjukkan satu atau lebih kartu tidak normal.

RDMA receive rate (pod dimension)

Laju penerimaan RDMA dari pod yang ditentukan, dalam MiB/s.

RDMA send rate (pod dimension)

Laju pengiriman RDMA dari pod yang ditentukan, dalam MiB/s.

CPFS read rate (pod dimension)

Laju baca perangkat CPFS dari pod yang ditentukan, dalam MiB/s.

CPFS write rate (pod dimension)

Laju tulis perangkat CPFS dari pod yang ditentukan, dalam MiB/s.

NVLink received data volume (pod dimension)

Volume data yang diterima melalui NVLink oleh perangkat GPU dalam pod yang ditentukan.

NVLink sent data volume (pod dimension)

Volume data yang dikirim melalui NVLink oleh perangkat GPU dalam pod yang ditentukan.

PCIE received data volume (pod dimension)

Volume data yang diterima melalui PCIE oleh perangkat GPU dalam pod yang ditentukan.

PCIE sent data volume (pod dimension)

Volume data yang dikirim melalui PCIE oleh perangkat GPU dalam pod yang ditentukan.

Untuk metrik lainnya, lihat Deep Learning Containers (DLC) Metrics.

Dimensi Kartu GPU Tunggal

Metric

Description

GPU memory device interface usage (card dimension)

Penggunaan antarmuka perangkat memori GPU untuk satu atau beberapa kartu dalam pod yang ditentukan.

GPU SM device usage (card dimension)

Penggunaan perangkat SM GPU dari satu atau beberapa kartu dalam pod yang ditentukan.

GPU device power consumption (card dimension)

Konsumsi daya perangkat GPU dari satu atau beberapa kartu dalam pod yang ditentukan.

GPU temperature (card dimension)

Suhu perangkat GPU dari satu atau beberapa kartu dalam pod yang ditentukan.

Overall GPU card health (card dimension)

Kesehatan keseluruhan satu atau beberapa kartu GPU dalam pod yang ditentukan. 100% menunjukkan GPU sehat. Kurang dari 100% menunjukkan satu atau lebih kartu tidak normal.

Untuk metrik lainnya, lihat Deep Learning Containers (DLC) Metrics.

Gunakan Cloud Monitor

Cloud Monitor menyediakan pemantauan enterprise-grade untuk sumber daya Alibaba Cloud dan aplikasi internet. Lihat data pemantauan job PAI-DLC, konfigurasikan peringatan, dan berlangganan metrik melalui API untuk membangun dasbor kustom. Untuk informasi selengkapnya, lihat Apa itu Cloud Monitor.

Penagihan

Cloud Monitor dikenai biaya. Untuk informasi selengkapnya, lihat Penagihan Cloud Monitor.

Lihat data pemantauan

  1. Masuk ke Konsol Cloud Monitor.

  2. Di panel navigasi sebelah kiri, pilih Visualization > Cloud Service Monitoring Dashboard.

  3. Pada halaman Cloud Service Dashboard, pilih PAI-Deep Learning Containers (DLC), lalu pilih atau cari Workspace ID untuk melihat grafik pemantauan. Untuk mencari Workspace ID, lihat Kelola ruang kerja.imageOperasi yang tersedia pada grafik pemantauan:

    • Ubah dimensi pemantauan: Lihat metrik pada tingkat job, pod, atau GPU.

      • Klik tab Job Dimension. Pilih atau masukkan ID job DLC untuk melihat data pemantauan job tertentu.image

      • Klik tab POD Dimension. Pilih atau masukkan ID pod untuk melihat data pemantauan pod tertentu.image

      • Klik tab GPU Dimension. Pilih atau masukkan ID pod untuk melihat data pemantauan spesifik GPU dari pod dalam job DLC yang ditentukan.89f97088ac15cc572529649022993023

    • Ubah rentang waktu: image

    • Perbesar: Klik tombol perbesar image.png di pojok kanan atas setiap grafik untuk melihat detail data pemantauan.image

Konfigurasikan peringatan

Konfigurasikan aturan peringatan untuk memantau penggunaan sumber daya job DLC. Terima notifikasi ketika ambang batas terlampaui. Konfigurasikan peringatan melalui Konsol Cloud Monitor atau API.

Konfigurasikan kontak peringatan

  1. Masuk ke Konsol Cloud Monitor.

  2. Di panel navigasi sebelah kiri, pilih Alert Service > Alert Contacts.

  3. Pada tab Alert Contacts, klik Create Contact. Masukkan nama, nomor ponsel, alamat email, atau URL webhook dari kontak peringatan, lalu klik OK.

  4. Pada tab Alert Contact Group, klik Create Contact Group. Masukkan nama untuk kelompok kontak peringatan dan pilih kontak peringatan yang sudah ada. Lalu, klik OK.

Konfigurasikan aturan peringatan

  1. Di panel navigasi sebelah kiri Konsol Cloud Monitor, pilih Cloud Resource Monitoring > Cloud Service Monitoring.

  2. Pada halaman Cloud Service Monitoring, cari dan buka PAI-Deep Learning Containers (DLC).image

  3. Pada halaman PAI-Deep Learning Containers (DLC), pilih wilayah tempat layanan dideploy dan klik Create Alert Rule.

  4. Pada panel Create Alert Rule, konfigurasikan parameter dan klik Confirm.

    Parameter

    Description

    Product

    Produk yang dikelola oleh Cloud Monitor. Pilih PAI-Deep Learning Containers (DLC).

    Applicable Scope

    Cakupan aturan peringatan. Mendukung All Resources dan Instance.

    • All Resources: Peringatan dikirim jika ada resource DLC yang memenuhi aturan peringatan.

    • Instance: Tambahkan ruang kerja yang diperlukan ke Associated Instance. Peringatan hanya dikirim ketika job DLC dalam ruang kerja yang ditambahkan memenuhi aturan peringatan.

    Rule Description

    Kondisi aturan peringatan. Peringatan dipicu ketika data pemantauan memenuhi kondisi yang ditentukan. Untuk informasi selengkapnya, lihat Buat aturan peringatan.

    Mute period

    Interval pengiriman notifikasi peringatan berulang jika peringatan belum terselesaikan.

    Effective Period

    Periode saat aturan peringatan aktif. Aturan hanya memeriksa peringatan selama periode ini.

    Tag

    Tag kustom dari aturan peringatan. Tag terdiri dari kunci dan nilai.

    Alert Contact Group

    Kelompok kontak peringatan yang menerima notifikasi. Pilih kelompok kontak yang telah dikonfigurasi.

  5. Pada halaman PAI-Deep Learning Containers (DLC), klik View Alert Rules untuk melihat detail dan riwayat peringatan. Ubah aturan sesuai kebutuhan.

Panggil API untuk mengonfigurasi layanan peringatan, termasuk melihat riwayat peringatan, mengelola templat peringatan, serta mengonfigurasi aturan dan kontak peringatan. Untuk informasi selengkapnya, lihat Referensi API Cloud Monitor: Layanan Peringatan.

Berlangganan metrik

Panggil API Cloud Monitor untuk berlangganan metrik pemantauan DLC dan bangun sistem pemantauan serta dasbor kustom. Untuk informasi selengkapnya, lihat Referensi API Pemantauan Layanan Cloud.

Cloud Monitor API

Description

DescribeMetricLast

Kueri data pemantauan terbaru dari metrik tertentu.

DescribeMetricList

Kueri data pemantauan dari metrik tertentu untuk layanan cloud tertentu.

DescribeMetricData

Kueri data pemantauan dari metrik untuk layanan cloud tertentu.

DescribeMetricMetaList

Kueri detail metrik yang tersedia di Cloud Monitor.

DescribeProjectMeta

Kueri layanan cloud yang mendukung metrik deret waktu di Cloud Monitor.

DescribeMetricTop

Kueri data pemantauan terbaru dari metrik tertentu untuk layanan cloud, lalu kueri data pemantauan yang diurutkan.

Contoh ini menggunakan API DescribeMetricList untuk mengkueri data pemantauan metrik PAI-DLC tertentu.

  1. Buka halaman Deep Learning Containers (DLC) Metrics.

  2. Pada halaman metrik, temukan metrik target dan klik Get Metric Data di kolom Actions.image

  3. Pada halaman OpenAPI Explorer, konfigurasikan parameter utama dan gunakan nilai default untuk parameter lainnya. Untuk detail parameter, lihat DescribeMetricList.

    Parameter

    Description

    Namespace

    Atur parameter ini ke acs_pai_dlc.

    MetricName

    Atur ke metrik pemantauan yang sesuai, misalnya, CARD_GPU_DRAM_ACTIVE_UTIL.

    StartTime

    Waktu mulai, misalnya, 2024-05-15 00:00:00.

    EndTime

    Waktu akhir, misalnya, 2024-05-28 00:00:00.

    Catatan

    Interval antara StartTime dan EndTime tidak boleh melebihi 31 hari.

  4. Setelah mengonfigurasi parameter, klik Initiate Call untuk melihat data pemantauan dalam rentang waktu yang ditentukan.

Gunakan ARMS

ARMS adalah platform observabilitas Alibaba Cloud. Sesuaikan dasbor Grafana untuk pelatihan terdistribusi PAI-DLC dan konfigurasikan aturan peringatan Prometheus untuk pemantauan metrik job yang mendetail. Untuk informasi selengkapnya, lihat Application Real-Time Monitoring Service (ARMS).

Penagihan

ARMS dikenai biaya. Untuk informasi selengkapnya, lihat Penagihan ARMS.

Ingest data pemantauan

Ikuti langkah-langkah berikut untuk mengingest data pemantauan:

  1. Masuk ke Konsol ARMS. Di panel navigasi, klik Integration Center.

  2. Pada halaman Integration Center, klik tab Artificial Intelligence, lalu klik Alibaba Cloud PAI-DLC Distributed Training Service.image

  3. Pada tab Start Provisioning, pilih Data Storage Region, tentukan Integration Name, lalu klik Confirm.

    Provisioning memerlukan waktu 1 hingga 2 menit. Pilih tab Effect Preview, Collected Metrics, atau Alert Rule Templates untuk melihat dasbor, metrik, dan templat peringatan.

  4. Setelah instalasi, klik Provisioning untuk melihat detail lingkungan.

Lihat dasbor Grafana

  1. Masuk ke atau Konsol ARMS. Di panel navigasi sebelah kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan.

  2. Pada tab Component Management, di area Component Type, pilih Alibaba Cloud PAI-DLC Distributed Training Service dan klik Dashboards untuk melihat dasbor Grafana bawaan.image

  3. Klik nama dasbor untuk melihat dasbor pemantauan.image

Konfigurasikan peringatan Prometheus

Untuk mengonfigurasi peringatan Prometheus:

  1. Masuk ke Konsol ARMS. Di panel navigasi sebelah kiri, pilih Provisioning. Pada tab Provisioned Environments > Cloud Service Region Environment, klik nama lingkungan.

  2. Pada daftar Component Type di tab Component Management, pilih Alibaba Cloud PAI-DLC Distributed Training Service dan klik Alert Rules untuk melihat aturan peringatan bawaan.image

  3. Aturan peringatan bawaan menghasilkan event tetapi tidak mengirim notifikasi. Untuk mengirim notifikasi melalui email atau platform lain, gunakan salah satu metode berikut:

    • Tetapkan kebijakan notifikasi untuk membuat aturan pencocokan bagi event peringatan. Ketika aturan dipicu, sistem mengirim peringatan ke penerima yang ditentukan menggunakan metode yang ditentukan. Untuk informasi selengkapnya, lihat Kebijakan notifikasi.

    • Edit aturan peringatan untuk mengonfigurasi metode notifikasi.imagePada halaman pengeditan aturan peringatan Prometheus, sesuaikan kondisi peringatan, durasi, konten, dan notifikasi. Untuk informasi selengkapnya, lihat Buat aturan peringatan Prometheus.image