Deep Learning Containers (DLC) menyediakan metrik yang komprehensif dan terperinci, memungkinkan Anda untuk memantau status sumber daya serta mendapatkan beban sumber daya secara real-time. Anda dapat menggunakan fitur pemantauan dan peringatan DLC untuk mengonfigurasi aturan peringatan dan notifikasi secara fleksibel. Sebagai contoh, jika pemanfaatan GPU melebihi ambang batas tertentu, notifikasi peringatan akan dikirim. Topik ini menjelaskan cara menggunakan CloudMonitor atau Application Real-Time Monitoring Service (ARMS) untuk melihat data pemantauan, mengonfigurasi notifikasi peringatan, dan berlangganan metrik pemantauan.
Prasyarat
Satu atau lebih pekerjaan DLC telah dibuat. Untuk informasi lebih lanjut, lihat Kirim pekerjaan pelatihan.
Batasan
Fitur pemantauan tidak didukung untuk pekerjaan pelatihan yang dibuat dengan menggunakan sumber daya komputasi umum dan menggunakan metode penagihan bayar sesuai pemakaian.
Akun operasi dan persyaratan izin
Akun Alibaba Cloud: Anda dapat menggunakan akun Alibaba Cloud untuk menyelesaikan semua operasi tanpa otorisasi tambahan.
Pengguna RAM:
Untuk melihat data pemantauan pekerjaan DLC di ruang kerja sebagai pengguna RAM, pastikan bahwa pengguna RAM memenuhi persyaratan berikut:
Pengguna RAM adalah anggota ruang kerja dan diberi salah satu peran berikut: administrator, pengembang algoritma, atau insinyur O&M algoritma. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.
Kebijakan AliyunCloudMonitorReadOnlyAccess dilampirkan ke pengguna RAM. Untuk informasi lebih lanjut, lihat Berikan izin kepada pengguna RAM.
Untuk melihat data pemantauan pekerjaan DLC di ruang kerja dan mengonfigurasi notifikasi peringatan sebagai pengguna RAM, pastikan bahwa pengguna RAM memenuhi persyaratan berikut:
Pengguna RAM adalah anggota ruang kerja dan diberi salah satu peran berikut: administrator, pengembang algoritma, atau insinyur O&M algoritma. Untuk informasi lebih lanjut, lihat Kelola anggota ruang kerja.
Kebijakan AliyunCloudMonitorFullAccess dilampirkan ke pengguna RAM. Untuk informasi lebih lanjut, lihat Berikan izin kepada pengguna RAM.
Metrik pemantauan dan deskripsi
Metrik mencakup aspek-aspek berikut: CPU, memori, disk, jaringan, Akses Memori Langsung Jarak Jauh (RDMA), Penyimpanan File Paralel Cloud (CPFS), serta metrik GPU seperti pemanfaatan GPU, pemanfaatan daya komputasi, pemanfaatan multiprosesor streaming (SM), dan jumlah data yang diterima atau dikirim saat Peripheral Component Interconnect Express (PCIE) atau NVLink digunakan. Dimensi pekerjaan, pod, dan GPU didukung. Bagian ini mencantumkan beberapa metrik kesehatan yang khas. Anda dapat melihat semua metrik dan detailnya di halaman PAI-DLC Container Training.
Dimensi pekerjaan
Metrik | Deskripsi |
JOB_CPU_UTIL | Pemanfaatan CPU suatu pekerjaan. |
JOB_MEMORY_UTIL | Penggunaan memori suatu pekerjaan. |
JOB_DISK_READ_BYTES_TOTAL | Tingkat pembacaan disk untuk suatu pekerjaan. Unit: MiB/s. |
JOB_DISK_WRITE_BYTES_TOTAL | Tingkat penulisan disk untuk suatu pekerjaan. Unit: MiB/s. |
JOB_NETWORK_RECEVICE_BYTES_TOTAL | Tingkat penerimaan jaringan untuk suatu pekerjaan. Unit: MiB/s. |
JOB_NETWORK_TRANSMIT_BYTES_TOTAL | Tingkat pengiriman jaringan untuk suatu pekerjaan. Unit: MiB/s. |
JOB_GPU_ACCELERATOR_DUTTY_UTIL | Pemanfaatan daya komputasi GPU suatu pekerjaan. |
JOB_GPU_ACCELERATOR_MEMORY_UTIL | Penggunaan memori GPU suatu pekerjaan. |
JOB_GPU_SM_UTIL | Pemanfaatan SM GPU suatu pekerjaan. |
JOB_GPU_POWER_USAGE | Konsumsi daya GPU suatu pekerjaan. |
JOB_GPU_TEMPERATURE | Suhu GPU suatu pekerjaan. |
JOB_GPU_HEALTH | Status kesehatan keseluruhan GPU untuk suatu pekerjaan. 100% menunjukkan bahwa GPU dalam kondisi sehat. Jika nilai metrik ini kurang dari 100%, beberapa GPU mungkin abnormal. |
JOB_RDMA_RECEIVE_BYTES_TOTAL | Tingkat penerimaan data untuk suatu pekerjaan saat RDMA digunakan. |
JOB_RDMA_TRANSMIT_BYTES_TOTAL | Tingkat pengiriman data untuk suatu pekerjaan saat RDMA digunakan. |
JOB_CPFS_WRITE_BYTES_TOTAL | Tingkat penulisan data ke CPFS untuk suatu pekerjaan. Unit: MiB/s. |
JOB_CPFS_READ_BYTES_TOTAL | Tingkat pembacaan data dari CPFS untuk suatu pekerjaan. Unit: MiB/s. |
JOB_GPU_NVLINK_RECEIVE | Jumlah data yang diterima oleh perangkat GPU untuk suatu pekerjaan saat NVLink digunakan. |
JOB_GPU_NVLINK_TRANSMIT | Jumlah data yang dikirim ke perangkat GPU untuk suatu pekerjaan saat NVLink digunakan. |
JOB_GPU_PCIE_RECEIVE | Jumlah data yang diterima oleh perangkat GPU untuk suatu pekerjaan saat PCIe digunakan. |
JOB_GPU_PCIE_TRANSMIT | Jumlah data yang dikirim oleh perangkat GPU untuk suatu pekerjaan saat PCIe digunakan. |
Anda dapat melihat detail metrik di halaman PAI-DLC Container Training. | |
Dimensi pod
Metrik | Deskripsi |
POD_CPU_UTIL | Pemanfaatan CPU suatu pod. |
POD_MEMORY_UTIL | Penggunaan memori suatu pod. |
POD_DISK_READ_BYTES_TOTAL | Tingkat pembacaan disk untuk suatu pod. Unit: MiB/s. |
POD_DISK_WRITE_BYTES_TOTAL | Tingkat penulisan disk untuk suatu pod. Unit: MiB/s. |
POD_NETWORK_RECEVICE_BYTES_TOTAL | Tingkat penerimaan jaringan untuk suatu pod. Unit: MiB/s. |
POD_NETWORK_TRANSMIT_BYTES_TOTAL | Tingkat pengiriman jaringan untuk suatu pod. Unit: MiB/s. |
POD_GPU_ACCELERATOR_DUTTY_UTIL | Pemanfaatan daya komputasi GPU suatu pod. |
POD_GPU_ACCELERATOR_MEMORY_UTIL | Penggunaan memori GPU suatu pod. |
POD_GPU_SM_UTIL | Pemanfaatan SM GPU suatu pod. |
POD_GPU_POWER_USAGE | Konsumsi daya GPU suatu pod. |
POD_GPU_TEMPERATURE | Suhu GPU suatu pod. |
POD_GPU_HEALTH | Status kesehatan keseluruhan GPU untuk suatu pod. 100% menunjukkan bahwa GPU dalam kondisi sehat. Jika nilai metrik ini kurang dari 100%, beberapa GPU mungkin abnormal. |
POD_RDMA_RECEIVE_BYTES_TOTAL | Tingkat penerimaan data untuk suatu pod saat RDMA digunakan. Unit: MiB/s. |
POD_RDMA_TRANSMIT_BYTES_TOTAL | Tingkat pengiriman data untuk suatu pod saat RDMA digunakan. Unit: MiB/s. |
POD_CPFS_READ_BYTES_TOTAL | Tingkat pembacaan data dari CPFS untuk suatu pod. Unit: MiB/s. |
POD_CPFS_WRITE_BYTES_TOTAL | Tingkat penulisan data ke CPFS untuk suatu pod. Unit: MiB/s. |
POD_GPU_NVLINK_RECEIVE | Jumlah data yang diterima oleh perangkat GPU untuk suatu pod saat NVLink digunakan. |
POD_GPU_NVLINK_TRANSMIT | Jumlah data yang dikirim ke perangkat GPU untuk suatu pod saat NVLink digunakan. |
POD_GPU_PCIE_RECEIVE | Jumlah data yang diterima oleh perangkat GPU untuk suatu pod saat PCIe digunakan. |
POD_GPU_PCIE_TRANSMIT | Jumlah data yang dikirim ke perangkat GPU untuk suatu pod saat PCIe digunakan. |
Anda dapat melihat detail metrik di halaman PAI-DLC Container Training. | |
Dimensi GPU
Metrik | Deskripsi |
CARD_GPU_DRAM_ACTIVE_UTIL | Pemanfaatan antarmuka satu atau lebih GPU untuk suatu pod. |
CARD_GPU_SM_UTIL | Pemanfaatan SM satu atau lebih GPU untuk suatu pod. |
CARD_GPU_POWER_USAGE | Konsumsi daya satu atau lebih GPU untuk suatu pod. |
CARD_GPU_TEMPERATURE | Suhu satu atau lebih GPU untuk suatu pod. |
CARD_GPU_HEALTH | Status kesehatan keseluruhan satu atau lebih GPU untuk suatu pod. 100% menunjukkan bahwa GPU dalam kondisi sehat. Jika nilai metrik ini kurang dari 100%, beberapa GPU mungkin abnormal. |
Anda dapat melihat detail metrik di halaman PAI-DLC Container Training. | |
Gunakan CloudMonitor
Penagihan
CloudMonitor menyediakan sejumlah kuota gratis tertentu. Untuk informasi lebih lanjut, lihat Bayar Sesuai Pemakaian.
Lihat data pemantauan
Dasbor pemantauan
Masuk ke Konsol Cloud Monitor.
Di bilah navigasi sisi kiri, pilih .
Di halaman Cloud Service Monitoring Dashboard, pilih PAI-DLC Container Training dari daftar drop-down. Di kotak pencarian WorkspaceId, pilih ID ruang kerja yang diinginkan dari daftar drop-down atau cari ID Ruang Kerja yang diinginkan untuk melihat grafik pemantauan. Untuk informasi tentang cara menanyakan ID ruang kerja, lihat Kelola Ruang Kerja.
Anda dapat melakukan operasi berikut di halaman ini:Ganti Dimensi Pemantauan: Dimensi pekerjaan, dimensi pod, dan dimensi GPU didukung.
Klik tab Job Dimension. Di tab ini, Anda dapat memilih ID pekerjaan DLC dari daftar drop-down atau memasukkan ID pekerjaan DLC untuk melihat data pemantauan pekerjaan tersebut.

Klik tab POD dimension. Di tab ini, Anda dapat memilih ID pod dari daftar drop-down atau memasukkan ID pod untuk melihat data pemantauan pod tersebut.

Klik tab GPU dimension. Di tab ini, Anda dapat memilih ID pod dari daftar drop-down atau memasukkan ID pod untuk melihat data pemantauan terkait GPU pod tersebut untuk pekerjaan DLC tertentu.

Ganti Rentang Waktu Data Pemantauan:

Perbesar Grafik: Di sudut kanan atas grafik, Anda dapat mengklik ikon
untuk melihat detail grafik.
Konfigurasikan peringatan
Fitur pemantauan dan peringatan memungkinkan Anda untuk memantau penggunaan sumber daya pekerjaan DLC dan mengonfigurasi aturan peringatan secara fleksibel. Sebagai contoh, Anda dapat mengonfigurasi aturan peringatan untuk mengaktifkan sistem mengirim notifikasi ketika penggunaan sumber daya lebih rendah dari nilai tertentu. Topik ini menjelaskan cara mengonfigurasi fitur pemantauan dan peringatan di Konsol CloudMonitor dan dengan memanggil operasi API.
Konfigurasikan kontak peringatan
Masuk ke Konsol CloudMonitor.
Di bilah navigasi sisi kiri, pilih .
Di tab Alert Contacts, klik Create Alert Contact.
Di panel Set Alert Contact, masukkan nama, alamat email, dan URL webhook kontak peringatan.
Klik OK.
Di tab Alert Contact Group, klik Create Alert Contact Group.
Di panel Create Alert Contact Group, masukkan nama untuk grup kontak peringatan dan tambahkan kontak peringatan ke grup kontak peringatan.
Klik Confirm.
Konfigurasikan aturan peringatan
Di bilah navigasi sisi kiri Konsol CloudMonitor, pilih .
Di halaman Cloud Service Monitoring, cari PAI-DLC Container Training untuk pergi ke halaman PAI-DLC Container Training.

Di halaman PAI-DLC Container Training, pilih wilayah tempat layanan diterapkan dari daftar drop-down dan klik Create Alert Rule.
Di panel Create Alert Rule, konfigurasikan parameter dan klik Confirm. Tabel berikut menjelaskan parameter tersebut.
Parameter
Deskripsi
Product
Nama layanan yang dipantau oleh CloudMonitor. Pilih PAI-DLC Container Training.
Resource Range
Rentang sumber daya yang berlaku untuk aturan peringatan. Nilai valid: Semua Sumber Daya dan Instans.
All Resources: Aturan peringatan berlaku untuk semua sumber daya DLC.
Instances: Anda perlu menambahkan ruang kerja ke bagian Associated Resources berdasarkan produk yang Anda pilih. Notifikasi peringatan hanya dikirim ketika pekerjaan DLC di ruang kerja yang ditambahkan memenuhi aturan peringatan.
Rule Description
Kondisi yang memicu peringatan. Jika data pemantauan memenuhi kondisi tertentu, peringatan akan dipicu. Untuk informasi tentang cara mengonfigurasi parameter ini, lihat Buat aturan peringatan.
Bisukan Selama
Interval di mana CloudMonitor mengirim ulang notifikasi peringatan sebelum peringatan dibersihkan.
Periode Efektif
Periode waktu selama aturan peringatan berlaku. CloudMonitor mengirim notifikasi peringatan berdasarkan aturan peringatan hanya dalam periode yang ditentukan.
Tag
Tag yang ingin Anda tambahkan ke aturan peringatan. Tag terdiri dari kunci dan nilai.
Grup Kontak Peringatan
Grup kontak peringatan ke mana notifikasi peringatan dikirim. Pilih grup kontak peringatan yang berisi kontak peringatan.
Di halaman PAI-DLC Container Training, klik View Alert Rules untuk melihat detail dan riwayat peringatan aturan peringatan atau memodifikasi aturan peringatan.
Anda dapat memanggil operasi API untuk mengonfigurasi fitur pemantauan dan peringatan, seperti melihat riwayat peringatan, mengelola template peringatan, membuat aturan peringatan, dan mengonfigurasi kontak peringatan. Untuk informasi lebih lanjut tentang metode pemanggilan dan detailnya, lihat Layanan Peringatan.
Berlangganan metrik
CloudMonitor menyediakan layanan API yang komprehensif. Anda dapat berlangganan metrik pemantauan DLC dan data dengan memanggil operasi API untuk membangun sistem pemantauan dan dasbor Anda sendiri. Untuk informasi lebih lanjut tentang operasi API, lihat Daftar Operasi Berdasarkan Fungsi.
Operasi API | Deskripsi |
Mengquery data pemantauan terbaru dari suatu metrik. | |
Mengquery data pemantauan suatu metrik untuk layanan cloud. | |
Mengquery data pemantauan suatu metrik untuk layanan cloud. | |
Mengquery detail metrik yang didukung di CloudMonitor. | |
Mengquery informasi tentang layanan yang dipantau di CloudMonitor. | |
Mengquery data pemantauan terbaru suatu metrik untuk layanan cloud. Data dapat diurutkan dalam urutan tertentu. |
Deskripsi berikut memberikan contoh tentang cara memanggil operasi DescribeMetricList untuk mengquery data pemantauan suatu metrik di DLC.
Pergi ke halaman PAI-DLC Container Training.
Di halaman PAI-DLC Container Training, temukan metrik yang diinginkan dan klik Obtain Metric Data di kolom Actions.

Di halaman OpenAPI Portal, konfigurasikan parameter yang tercantum dalam tabel berikut dan pertahankan pengaturan default untuk parameter lainnya. Untuk informasi lebih lanjut, lihat DescribeMetricList.
Parameter
Deskripsi
Namespace
Namespace layanan cloud. Setel parameter ini ke acs_pai_dlc.
MetricName
Nama metrik yang ingin Anda query. Contoh: CARD_GPU_DRAM_ACTIVE_UTIL.
StartTime
Awal rentang waktu untuk query. Contoh: 2024-05-15 00:00:00.
EndTime
Akhir rentang waktu untuk query. Contoh: 2024-05-28 00:00:00.
CatatanInterval antara nilai parameter StartTime dan EndTime harus kurang dari atau sama dengan 31 hari.
Setelah Anda mengonfigurasi parameter, klik Initiate Call untuk melihat data pemantauan dalam rentang waktu yang ditentukan.
Gunakan ARMS
Application Real-Time Monitoring Service (ARMS) adalah platform observabilitas berbasis cloud-native. Berdasarkan kemampuan ARMS, Anda dapat membangun dasbor Grafana kustom untuk PAI-DLC atau mengonfigurasi alert Prometheus yang fleksibel. Untuk informasi lebih lanjut, lihat Apa itu ARMS?.
Penagihan
Anda akan dikenakan biaya untuk menggunakan ARMS. Untuk informasi lebih lanjut, lihat Penagihan Instans.
Integrasi data pemantauan
Lakukan langkah-langkah berikut:
Masuk ke Konsol Application Real-Time Monitoring Service (ARMS). Di bilah navigasi sisi kiri, klik Integration Center.
Di pohon navigasi sisi kiri halaman Integration Center, klik AI. Di bagian AI, klik Aliyun PAI-DLC.

Di tab Start Integration pada panel Aliyun PAI-DLC, pilih wilayah tempat data disimpan, tentukan nama integrasi, lalu klik OK.
Integrasi membutuhkan waktu sekitar 1 hingga 2 menit. Anda dapat beralih ke tab Pratinjau untuk melihat dasbor pemantauan, tab Kumpulkan Metrik untuk melihat metrik yang dikumpulkan, dan tab Template Aturan Peringatan untuk melihat nama dan detail template aturan peringatan.
Setelah integrasi selesai, klik Integration Management untuk melihat informasi tentang lingkungan integrasi.
Lihat Dasbor Grafana
Masuk ke Konsol ARMS.
Di bilah navigasi sisi kiri, klik Integration Management.
Pada tab Integrated Environments di halaman Integration Management, klik Cloud Service Region.
Di tab Cloud Service Region, klik nama instance lingkungan yang ingin Anda kelola.
Di bagian Addon Type tab Component Management, klik Dashboards untuk melihat dasbor Grafana bawaan.

Klik nama dasbor untuk melihat dasbor pemantauan.

Konfigurasikan Alert Prometheus
Lakukan langkah-langkah berikut untuk mengonfigurasi alert Prometheus:
Masuk ke Konsol ARMS.
Di bilah navigasi sisi kiri, klik Integration Management.
Di tab Integrated Environments halaman Integration Management, klik Cloud Service Region.
Di tab Cloud Service Region, klik nama instance lingkungan yang ingin Anda kelola.
Di bagian Addon Type tab Component Management, klik Alert Rule untuk melihat aturan peringatan bawaan.

Aturan peringatan bawaan menghasilkan peristiwa peringatan tanpa mengirim notifikasi peringatan. Jika Anda ingin mengirim notifikasi peringatan melalui email atau saluran lainnya, temukan aturan peringatan yang diinginkan dan klik Edit di kolom Tindakan untuk memodifikasi metode notifikasi.
Anda dapat mengonfigurasi kebijakan notifikasi dan menentukan aturan pencocokan untuk peristiwa peringatan. Jika aturan pencocokan dipicu, sistem mengirim notifikasi peringatan kepada kontak menggunakan metode notifikasi yang ditentukan. Untuk informasi lebih lanjut, lihat Buat dan Kelola Kebijakan Notifikasi.
Anda dapat memodifikasi metode notifikasi aturan peringatan.
Di halaman Edit Aturan Peringatan Prometheus, Anda dapat mengonfigurasi kondisi peringatan, durasi, pesan peringatan, dan notifikasi peringatan. Untuk informasi lebih lanjut, lihat Buat Aturan Peringatan untuk Instans Prometheus.