全部产品
Search
文档中心

Platform For AI:Pemantauan dan Peringatan Pelatihan

更新时间:Jul 06, 2025

Deep Learning Containers (DLC) menyediakan metrik yang komprehensif dan terperinci, memungkinkan Anda untuk memantau status sumber daya serta mendapatkan beban sumber daya secara real-time. Anda dapat menggunakan fitur pemantauan dan peringatan DLC untuk mengonfigurasi aturan peringatan dan notifikasi secara fleksibel. Sebagai contoh, jika pemanfaatan GPU melebihi ambang batas tertentu, notifikasi peringatan akan dikirim. Topik ini menjelaskan cara menggunakan CloudMonitor atau Application Real-Time Monitoring Service (ARMS) untuk melihat data pemantauan, mengonfigurasi notifikasi peringatan, dan berlangganan metrik pemantauan.

Prasyarat

Satu atau lebih pekerjaan DLC telah dibuat. Untuk informasi lebih lanjut, lihat Kirim pekerjaan pelatihan.

Batasan

Fitur pemantauan tidak didukung untuk pekerjaan pelatihan yang dibuat dengan menggunakan sumber daya komputasi umum dan menggunakan metode penagihan bayar sesuai pemakaian.

Akun operasi dan persyaratan izin

  • Akun Alibaba Cloud: Anda dapat menggunakan akun Alibaba Cloud untuk menyelesaikan semua operasi tanpa otorisasi tambahan.

  • Pengguna RAM:

    • Untuk melihat data pemantauan pekerjaan DLC di ruang kerja sebagai pengguna RAM, pastikan bahwa pengguna RAM memenuhi persyaratan berikut:

      • Pengguna RAM adalah anggota ruang kerja dan diberi salah satu peran berikut: administrator, pengembang algoritma, atau insinyur O&M algoritma. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.

      • Kebijakan AliyunCloudMonitorReadOnlyAccess dilampirkan ke pengguna RAM. Untuk informasi lebih lanjut, lihat Berikan izin kepada pengguna RAM.

    • Untuk melihat data pemantauan pekerjaan DLC di ruang kerja dan mengonfigurasi notifikasi peringatan sebagai pengguna RAM, pastikan bahwa pengguna RAM memenuhi persyaratan berikut:

      • Pengguna RAM adalah anggota ruang kerja dan diberi salah satu peran berikut: administrator, pengembang algoritma, atau insinyur O&M algoritma. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.

      • Kebijakan AliyunCloudMonitorFullAccess dilampirkan ke pengguna RAM. Untuk informasi lebih lanjut, lihat Berikan izin kepada pengguna RAM.

Metrik pemantauan dan deskripsi

Metrik mencakup aspek-aspek berikut: CPU, memori, disk, jaringan, Akses Memori Langsung Jarak Jauh (RDMA), Penyimpanan File Paralel Cloud (CPFS), serta metrik GPU seperti pemanfaatan GPU, pemanfaatan daya komputasi, pemanfaatan multiprosesor streaming (SM), dan jumlah data yang diterima atau dikirim saat Peripheral Component Interconnect Express (PCIE) atau NVLink digunakan. Dimensi pekerjaan, pod, dan GPU didukung. Bagian ini mencantumkan beberapa metrik kesehatan yang khas. Anda dapat melihat semua metrik dan detailnya di halaman PAI-DLC Container Training.

Dimensi pekerjaan

Metrik

Deskripsi

JOB_CPU_UTIL

Pemanfaatan CPU suatu pekerjaan.

JOB_MEMORY_UTIL

Penggunaan memori suatu pekerjaan.

JOB_DISK_READ_BYTES_TOTAL

Tingkat pembacaan disk untuk suatu pekerjaan. Unit: MiB/s.

JOB_DISK_WRITE_BYTES_TOTAL

Tingkat penulisan disk untuk suatu pekerjaan. Unit: MiB/s.

JOB_NETWORK_RECEVICE_BYTES_TOTAL

Tingkat penerimaan jaringan untuk suatu pekerjaan. Unit: MiB/s.

JOB_NETWORK_TRANSMIT_BYTES_TOTAL

Tingkat pengiriman jaringan untuk suatu pekerjaan. Unit: MiB/s.

JOB_GPU_ACCELERATOR_DUTTY_UTIL

Pemanfaatan daya komputasi GPU suatu pekerjaan.

JOB_GPU_ACCELERATOR_MEMORY_UTIL

Penggunaan memori GPU suatu pekerjaan.

JOB_GPU_SM_UTIL

Pemanfaatan SM GPU suatu pekerjaan.

JOB_GPU_POWER_USAGE

Konsumsi daya GPU suatu pekerjaan.

JOB_GPU_TEMPERATURE

Suhu GPU suatu pekerjaan.

JOB_GPU_HEALTH

Status kesehatan keseluruhan GPU untuk suatu pekerjaan. 100% menunjukkan bahwa GPU dalam kondisi sehat. Jika nilai metrik ini kurang dari 100%, beberapa GPU mungkin abnormal.

JOB_RDMA_RECEIVE_BYTES_TOTAL

Tingkat penerimaan data untuk suatu pekerjaan saat RDMA digunakan.

JOB_RDMA_TRANSMIT_BYTES_TOTAL

Tingkat pengiriman data untuk suatu pekerjaan saat RDMA digunakan.

JOB_CPFS_WRITE_BYTES_TOTAL

Tingkat penulisan data ke CPFS untuk suatu pekerjaan. Unit: MiB/s.

JOB_CPFS_READ_BYTES_TOTAL

Tingkat pembacaan data dari CPFS untuk suatu pekerjaan. Unit: MiB/s.

JOB_GPU_NVLINK_RECEIVE

Jumlah data yang diterima oleh perangkat GPU untuk suatu pekerjaan saat NVLink digunakan.

JOB_GPU_NVLINK_TRANSMIT

Jumlah data yang dikirim ke perangkat GPU untuk suatu pekerjaan saat NVLink digunakan.

JOB_GPU_PCIE_RECEIVE

Jumlah data yang diterima oleh perangkat GPU untuk suatu pekerjaan saat PCIe digunakan.

JOB_GPU_PCIE_TRANSMIT

Jumlah data yang dikirim oleh perangkat GPU untuk suatu pekerjaan saat PCIe digunakan.

Anda dapat melihat detail metrik di halaman PAI-DLC Container Training.

Dimensi pod

Metrik

Deskripsi

POD_CPU_UTIL

Pemanfaatan CPU suatu pod.

POD_MEMORY_UTIL

Penggunaan memori suatu pod.

POD_DISK_READ_BYTES_TOTAL

Tingkat pembacaan disk untuk suatu pod. Unit: MiB/s.

POD_DISK_WRITE_BYTES_TOTAL

Tingkat penulisan disk untuk suatu pod. Unit: MiB/s.

POD_NETWORK_RECEVICE_BYTES_TOTAL

Tingkat penerimaan jaringan untuk suatu pod. Unit: MiB/s.

POD_NETWORK_TRANSMIT_BYTES_TOTAL

Tingkat pengiriman jaringan untuk suatu pod. Unit: MiB/s.

POD_GPU_ACCELERATOR_DUTTY_UTIL

Pemanfaatan daya komputasi GPU suatu pod.

POD_GPU_ACCELERATOR_MEMORY_UTIL

Penggunaan memori GPU suatu pod.

POD_GPU_SM_UTIL

Pemanfaatan SM GPU suatu pod.

POD_GPU_POWER_USAGE

Konsumsi daya GPU suatu pod.

POD_GPU_TEMPERATURE

Suhu GPU suatu pod.

POD_GPU_HEALTH

Status kesehatan keseluruhan GPU untuk suatu pod. 100% menunjukkan bahwa GPU dalam kondisi sehat. Jika nilai metrik ini kurang dari 100%, beberapa GPU mungkin abnormal.

POD_RDMA_RECEIVE_BYTES_TOTAL

Tingkat penerimaan data untuk suatu pod saat RDMA digunakan. Unit: MiB/s.

POD_RDMA_TRANSMIT_BYTES_TOTAL

Tingkat pengiriman data untuk suatu pod saat RDMA digunakan. Unit: MiB/s.

POD_CPFS_READ_BYTES_TOTAL

Tingkat pembacaan data dari CPFS untuk suatu pod. Unit: MiB/s.

POD_CPFS_WRITE_BYTES_TOTAL

Tingkat penulisan data ke CPFS untuk suatu pod. Unit: MiB/s.

POD_GPU_NVLINK_RECEIVE

Jumlah data yang diterima oleh perangkat GPU untuk suatu pod saat NVLink digunakan.

POD_GPU_NVLINK_TRANSMIT

Jumlah data yang dikirim ke perangkat GPU untuk suatu pod saat NVLink digunakan.

POD_GPU_PCIE_RECEIVE

Jumlah data yang diterima oleh perangkat GPU untuk suatu pod saat PCIe digunakan.

POD_GPU_PCIE_TRANSMIT

Jumlah data yang dikirim ke perangkat GPU untuk suatu pod saat PCIe digunakan.

Anda dapat melihat detail metrik di halaman PAI-DLC Container Training.

Dimensi GPU

    Metrik

    Deskripsi

    CARD_GPU_DRAM_ACTIVE_UTIL

    Pemanfaatan antarmuka satu atau lebih GPU untuk suatu pod.

    CARD_GPU_SM_UTIL

    Pemanfaatan SM satu atau lebih GPU untuk suatu pod.

    CARD_GPU_POWER_USAGE

    Konsumsi daya satu atau lebih GPU untuk suatu pod.

    CARD_GPU_TEMPERATURE

    Suhu satu atau lebih GPU untuk suatu pod.

    CARD_GPU_HEALTH

    Status kesehatan keseluruhan satu atau lebih GPU untuk suatu pod. 100% menunjukkan bahwa GPU dalam kondisi sehat. Jika nilai metrik ini kurang dari 100%, beberapa GPU mungkin abnormal.

    Anda dapat melihat detail metrik di halaman PAI-DLC Container Training.

Gunakan CloudMonitor

Penagihan

CloudMonitor menyediakan sejumlah kuota gratis tertentu. Untuk informasi lebih lanjut, lihat Bayar Sesuai Pemakaian.

Lihat data pemantauan

Dasbor pemantauan

  1. Masuk ke Konsol Cloud Monitor.

  2. Di bilah navigasi sisi kiri, pilih Visualization > Cloud Service Monitoring Dashboard.

  3. Di halaman Cloud Service Monitoring Dashboard, pilih PAI-DLC Container Training dari daftar drop-down. Di kotak pencarian WorkspaceId, pilih ID ruang kerja yang diinginkan dari daftar drop-down atau cari ID Ruang Kerja yang diinginkan untuk melihat grafik pemantauan. Untuk informasi tentang cara menanyakan ID ruang kerja, lihat Kelola Ruang Kerja. imageAnda dapat melakukan operasi berikut di halaman ini:

    • Ganti Dimensi Pemantauan: Dimensi pekerjaan, dimensi pod, dan dimensi GPU didukung.

      • Klik tab Job Dimension. Di tab ini, Anda dapat memilih ID pekerjaan DLC dari daftar drop-down atau memasukkan ID pekerjaan DLC untuk melihat data pemantauan pekerjaan tersebut.image

      • Klik tab POD dimension. Di tab ini, Anda dapat memilih ID pod dari daftar drop-down atau memasukkan ID pod untuk melihat data pemantauan pod tersebut.image

      • Klik tab GPU dimension. Di tab ini, Anda dapat memilih ID pod dari daftar drop-down atau memasukkan ID pod untuk melihat data pemantauan terkait GPU pod tersebut untuk pekerjaan DLC tertentu.89f97088ac15cc572529649022993023

    • Ganti Rentang Waktu Data Pemantauan:image

    • Perbesar Grafik: Di sudut kanan atas grafik, Anda dapat mengklik ikon image.png untuk melihat detail grafik.image

Konfigurasikan peringatan

Fitur pemantauan dan peringatan memungkinkan Anda untuk memantau penggunaan sumber daya pekerjaan DLC dan mengonfigurasi aturan peringatan secara fleksibel. Sebagai contoh, Anda dapat mengonfigurasi aturan peringatan untuk mengaktifkan sistem mengirim notifikasi ketika penggunaan sumber daya lebih rendah dari nilai tertentu. Topik ini menjelaskan cara mengonfigurasi fitur pemantauan dan peringatan di Konsol CloudMonitor dan dengan memanggil operasi API.

Konfigurasikan kontak peringatan

  1. Masuk ke Konsol CloudMonitor.

  2. Di bilah navigasi sisi kiri, pilih Alerts > Alert Contacts.

  3. Di tab Alert Contacts, klik Create Alert Contact.

    1. Di panel Set Alert Contact, masukkan nama, alamat email, dan URL webhook kontak peringatan.

    2. Klik OK.

  4. Di tab Alert Contact Group, klik Create Alert Contact Group.

    1. Di panel Create Alert Contact Group, masukkan nama untuk grup kontak peringatan dan tambahkan kontak peringatan ke grup kontak peringatan.

    2. Klik Confirm.

Konfigurasikan aturan peringatan

  1. Di bilah navigasi sisi kiri Konsol CloudMonitor, pilih Cloud Service Monitoring > Cloud Service Monitoring.

  2. Di halaman Cloud Service Monitoring, cari PAI-DLC Container Training untuk pergi ke halaman PAI-DLC Container Training.image

  3. Di halaman PAI-DLC Container Training, pilih wilayah tempat layanan diterapkan dari daftar drop-down dan klik Create Alert Rule.

  4. Di panel Create Alert Rule, konfigurasikan parameter dan klik Confirm. Tabel berikut menjelaskan parameter tersebut.

    Parameter

    Deskripsi

    Product

    Nama layanan yang dipantau oleh CloudMonitor. Pilih PAI-DLC Container Training.

    Resource Range

    Rentang sumber daya yang berlaku untuk aturan peringatan. Nilai valid: Semua Sumber Daya dan Instans.

    • All Resources: Aturan peringatan berlaku untuk semua sumber daya DLC.

    • Instances: Anda perlu menambahkan ruang kerja ke bagian Associated Resources berdasarkan produk yang Anda pilih. Notifikasi peringatan hanya dikirim ketika pekerjaan DLC di ruang kerja yang ditambahkan memenuhi aturan peringatan.

    Rule Description

    Kondisi yang memicu peringatan. Jika data pemantauan memenuhi kondisi tertentu, peringatan akan dipicu. Untuk informasi tentang cara mengonfigurasi parameter ini, lihat Buat aturan peringatan.

    Bisukan Selama

    Interval di mana CloudMonitor mengirim ulang notifikasi peringatan sebelum peringatan dibersihkan.

    Periode Efektif

    Periode waktu selama aturan peringatan berlaku. CloudMonitor mengirim notifikasi peringatan berdasarkan aturan peringatan hanya dalam periode yang ditentukan.

    Tag

    Tag yang ingin Anda tambahkan ke aturan peringatan. Tag terdiri dari kunci dan nilai.

    Grup Kontak Peringatan

    Grup kontak peringatan ke mana notifikasi peringatan dikirim. Pilih grup kontak peringatan yang berisi kontak peringatan.

  5. Di halaman PAI-DLC Container Training, klik View Alert Rules untuk melihat detail dan riwayat peringatan aturan peringatan atau memodifikasi aturan peringatan.

Anda dapat memanggil operasi API untuk mengonfigurasi fitur pemantauan dan peringatan, seperti melihat riwayat peringatan, mengelola template peringatan, membuat aturan peringatan, dan mengonfigurasi kontak peringatan. Untuk informasi lebih lanjut tentang metode pemanggilan dan detailnya, lihat Layanan Peringatan.

Berlangganan metrik

CloudMonitor menyediakan layanan API yang komprehensif. Anda dapat berlangganan metrik pemantauan DLC dan data dengan memanggil operasi API untuk membangun sistem pemantauan dan dasbor Anda sendiri. Untuk informasi lebih lanjut tentang operasi API, lihat Daftar Operasi Berdasarkan Fungsi.

Operasi API

Deskripsi

DescribeMetricLast

Mengquery data pemantauan terbaru dari suatu metrik.

DescribeMetricList

Mengquery data pemantauan suatu metrik untuk layanan cloud.

DescribeMetricData

Mengquery data pemantauan suatu metrik untuk layanan cloud.

DescribeMetricMetaList

Mengquery detail metrik yang didukung di CloudMonitor.

DescribeProjectMeta

Mengquery informasi tentang layanan yang dipantau di CloudMonitor.

DescribeMetricTop

Mengquery data pemantauan terbaru suatu metrik untuk layanan cloud. Data dapat diurutkan dalam urutan tertentu.

Deskripsi berikut memberikan contoh tentang cara memanggil operasi DescribeMetricList untuk mengquery data pemantauan suatu metrik di DLC.

  1. Pergi ke halaman PAI-DLC Container Training.

  2. Di halaman PAI-DLC Container Training, temukan metrik yang diinginkan dan klik Obtain Metric Data di kolom Actions.image

  3. Di halaman OpenAPI Portal, konfigurasikan parameter yang tercantum dalam tabel berikut dan pertahankan pengaturan default untuk parameter lainnya. Untuk informasi lebih lanjut, lihat DescribeMetricList.

    Parameter

    Deskripsi

    Namespace

    Namespace layanan cloud. Setel parameter ini ke acs_pai_dlc.

    MetricName

    Nama metrik yang ingin Anda query. Contoh: CARD_GPU_DRAM_ACTIVE_UTIL.

    StartTime

    Awal rentang waktu untuk query. Contoh: 2024-05-15 00:00:00.

    EndTime

    Akhir rentang waktu untuk query. Contoh: 2024-05-28 00:00:00.

    Catatan

    Interval antara nilai parameter StartTime dan EndTime harus kurang dari atau sama dengan 31 hari.

  4. Setelah Anda mengonfigurasi parameter, klik Initiate Call untuk melihat data pemantauan dalam rentang waktu yang ditentukan.

Gunakan ARMS

Application Real-Time Monitoring Service (ARMS) adalah platform observabilitas berbasis cloud-native. Berdasarkan kemampuan ARMS, Anda dapat membangun dasbor Grafana kustom untuk PAI-DLC atau mengonfigurasi alert Prometheus yang fleksibel. Untuk informasi lebih lanjut, lihat Apa itu ARMS?.

Penagihan

Anda akan dikenakan biaya untuk menggunakan ARMS. Untuk informasi lebih lanjut, lihat Penagihan Instans.

Integrasi data pemantauan

Lakukan langkah-langkah berikut:

  1. Masuk ke Konsol Application Real-Time Monitoring Service (ARMS). Di bilah navigasi sisi kiri, klik Integration Center.

  2. Di pohon navigasi sisi kiri halaman Integration Center, klik AI. Di bagian AI, klik Aliyun PAI-DLC.image

  3. Di tab Start Integration pada panel Aliyun PAI-DLC, pilih wilayah tempat data disimpan, tentukan nama integrasi, lalu klik OK.

    Integrasi membutuhkan waktu sekitar 1 hingga 2 menit. Anda dapat beralih ke tab Pratinjau untuk melihat dasbor pemantauan, tab Kumpulkan Metrik untuk melihat metrik yang dikumpulkan, dan tab Template Aturan Peringatan untuk melihat nama dan detail template aturan peringatan.

  4. Setelah integrasi selesai, klik Integration Management untuk melihat informasi tentang lingkungan integrasi.

Lihat Dasbor Grafana

  1. Masuk ke Konsol ARMS.

  2. Di bilah navigasi sisi kiri, klik Integration Management.

  3. Pada tab Integrated Environments di halaman Integration Management, klik Cloud Service Region.

  4. Di tab Cloud Service Region, klik nama instance lingkungan yang ingin Anda kelola.

  5. Di bagian Addon Type tab Component Management, klik Dashboards untuk melihat dasbor Grafana bawaan.image

  6. Klik nama dasbor untuk melihat dasbor pemantauan.image

Konfigurasikan Alert Prometheus

Lakukan langkah-langkah berikut untuk mengonfigurasi alert Prometheus:

  1. Masuk ke Konsol ARMS.

  2. Di bilah navigasi sisi kiri, klik Integration Management.

  3. Di tab Integrated Environments halaman Integration Management, klik Cloud Service Region.

  4. Di tab Cloud Service Region, klik nama instance lingkungan yang ingin Anda kelola.

  5. Di bagian Addon Type tab Component Management, klik Alert Rule untuk melihat aturan peringatan bawaan.image

  6. Aturan peringatan bawaan menghasilkan peristiwa peringatan tanpa mengirim notifikasi peringatan. Jika Anda ingin mengirim notifikasi peringatan melalui email atau saluran lainnya, temukan aturan peringatan yang diinginkan dan klik Edit di kolom Tindakan untuk memodifikasi metode notifikasi.

    • Anda dapat mengonfigurasi kebijakan notifikasi dan menentukan aturan pencocokan untuk peristiwa peringatan. Jika aturan pencocokan dipicu, sistem mengirim notifikasi peringatan kepada kontak menggunakan metode notifikasi yang ditentukan. Untuk informasi lebih lanjut, lihat Buat dan Kelola Kebijakan Notifikasi.

    • Anda dapat memodifikasi metode notifikasi aturan peringatan. imageDi halaman Edit Aturan Peringatan Prometheus, Anda dapat mengonfigurasi kondisi peringatan, durasi, pesan peringatan, dan notifikasi peringatan. Untuk informasi lebih lanjut, lihat Buat Aturan Peringatan untuk Instans Prometheus.image