Lihat informasi pemantauan E-HPC - Elastic High Performance Computing

Dasbor Pemantauan E-HPC menyediakan visibilitas real-time terhadap compute node, penyimpanan bersama, dan sumber daya pekerjaan melalui empat tampilan: Ikhtisar, Pemantauan Node, Pemantauan Penyimpanan, dan Pemantauan Pekerjaan. Gunakan data ini untuk mengidentifikasi bottleneck sumber daya, melacak kesehatan antrian pekerjaan, serta membuat keputusan penjadwalan yang tepat.

Prasyarat

Sebelum memulai, pastikan Anda telah memiliki:

Kluster dalam status Running
Kluster dengan mode penyebaran diatur ke Public cloud cluster
Kluster yang menjalankan penjadwal Slurm atau PBS
Komponen monitoring yang telah diinstal pada kluster
(Hanya untuk pengguna RAM) Izin untuk melihat informasi pemantauan di Konsol E-HPC. Untuk detailnya, lihat Berikan izin kepada pengguna RAM

Lihat pemantauan kluster

Masuk ke Konsol E-HPC.
Di bagian kiri bilah navigasi atas, pilih wilayah.
Di panel navigasi sebelah kiri, klik Cluster.
Pada halaman Cluster List, klik ID kluster yang ingin Anda pantau.
Di panel navigasi sebelah kiri, pilih Operation and maintenance management > Monitoring.
Klik tab untuk melihat data pemantauan yang sesuai.

Catatan

Pada tab Node Monitoring, Storage Monitoring, dan Job Monitoring, gunakan kontrol rentang waktu untuk membatasi cakupan data. Klik tombol preset untuk melihat data selama 1 jam, 4 jam, 12 jam, atau 1 hari terakhir. Untuk menentukan jendela waktu tertentu, pilih waktu mulai dan akhir secara kustom. Rentang kustom maksimum adalah satu bulan.

Untuk daftar lengkap metrik pada setiap tab, lihat Metrik.

Metrik

Ikhtisar

Tab Overview menampilkan ringkasan status sumber daya di seluruh kluster:

Total Compute Nodes — jumlah total compute node dalam kluster
Shared Storage Space — kapasitas total penyimpanan bersama
Total Jobs — jumlah total pekerjaan di semua status
Average Load — rata-rata beban sistem di seluruh compute node

Di bawah ringkasan tersebut, setiap compute node ditampilkan beserta status penjadwalannya dan penggunaan sumber dayanya. Nilai status penjadwalan:

Status	Description
Idle	Semua core menganggur. Node tersedia dengan kapasitas penuh dan siap menerima pekerjaan baru.
Running	Beberapa core sedang digunakan; core yang tersisa masih dapat menerima pekerjaan baru.
Allocated	Semua core telah terisi. Pekerjaan baru akan masuk antrian hingga tersedia core kosong.
Offline	Node tidak berpartisipasi dalam komputasi dan tidak menerima pekerjaan baru.

Pemantauan node

Tab Node Monitoring menampilkan metrik performa compute node. Filter berdasarkan kluster atau antrian untuk mempersempit tampilan.

Metric	Description
CPU Utilization	Persentase daya pemrosesan yang digunakan di compute node. Utilisasi yang terus-menerus di atas 80–90% menunjukkan penggunaan sumber daya yang efisien tetapi dapat menurunkan performa dalam jangka panjang. Utilisasi di kisaran 0–30% mungkin mengindikasikan penggunaan yang kurang optimal atau adanya masalah penjadwalan.
Memory Usage	Konsumsi memori pada compute node. Pantau secara berkala untuk mencegah kegagalan pekerjaan akibat luapan buffer. Jika penggunaan memori konsisten tinggi, tingkatkan kapasitas memori atau optimalkan alokasi memori.
System Load	Beban kerja pada compute node. Rasio beban terhadap jumlah node yang tinggi menunjukkan tekanan pada sumber daya. Untuk mengurangi beban, tambahkan node (scale-out) atau optimalkan penjadwalan pekerjaan.
Disk Usage	Konsumsi ruang penyimpanan disk. Pada penggunaan disk 100%, operasi tulis akan gagal. Hapus data yang tidak diperlukan atau perluas kapasitas penyimpanan sebelum mencapai ambang batas tersebut.
Disk Read and Write	Laju pembacaan dan penulisan data. Satuan: KB/s. Gunakan laju ini untuk menilai performa I/O dan mendeteksi bottleneck yang memengaruhi throughput pekerjaan.
Network Traffic	Data yang ditransfer antar compute node melalui virtual private network (VPC). Pantau periode trafik puncak untuk mendeteksi masalah bandwidth sedini mungkin.

Pemantauan penyimpanan

Tab Storage Monitoring menampilkan metrik untuk sistem file Apsara File Storage NAS (NAS) yang disambungkan ke kluster.

Metric	Description
Storage Space	Penggunaan penyimpanan sistem file NAS. Untuk mencegah kehabisan ruang penyimpanan, atur alert pemantauan, lakukan pembersihan data secara berkala, dan perluas kapasitas secara proaktif.
Files	Jumlah total file dalam sistem file NAS. Jumlah file yang besar meningkatkan kompleksitas manajemen dan dapat memengaruhi performa pengambilan. Jika jumlah melebihi ambang batas Anda, hapus file yang tidak diperlukan.
IOPS	Rata-rata operasi baca dan tulis per detik selama rentang waktu yang dipilih. Satuan: requests/s.
Latency	Latensi rata-rata per operasi baca dan tulis selama rentang waktu yang dipilih. Satuan: milidetik.
Throughput	Throughput rata-rata baca dan tulis selama rentang waktu yang dipilih. Satuan: KiB.
Metadata QPS	Jumlah rata-rata permintaan metadata per detik selama rentang waktu yang dipilih. Satuan: requests/s.

Untuk informasi lebih lanjut tentang metrik penyimpanan NAS, lihat Performance monitoring dan FAQ about the performance of NAS file systems.

Pemantauan pekerjaan

Tab Job Monitoring menampilkan konsumsi sumber daya pekerjaan dan kesehatan antrian. Filter berdasarkan kluster, antrian, proyek, atau pengguna.

Metric	Description
Jobs	Jumlah pekerjaan yang sedang berjalan. Lonjakan jumlah pekerjaan berjalan relatif terhadap sumber daya yang tersedia dapat menyebabkan konflik sumber daya. Optimalkan penjadwalan atau hapus pekerjaan yang tidak diperlukan untuk meningkatkan throughput.
Total Cores Required by Enqueued Jobs	Total core CPU yang diminta oleh pekerjaan yang sedang menunggu dalam antrian. Jika jumlah ini melebihi jumlah core yang tersedia, pekerjaan dalam antrian akan menunggu lebih lama. Tambahkan core atau sesuaikan prioritas pekerjaan untuk mengurangi waktu tunggu.
Job Wait Duration	Waktu rata-rata yang dihabiskan pekerjaan dalam antrian. Durasi tunggu yang meningkat menandakan adanya konflik sumber daya. Berikan prioritas pada pekerjaan penting untuk meningkatkan utilisasi keseluruhan.
Total Cores Used by Running Jobs	Total core CPU yang digunakan oleh pekerjaan yang sedang berjalan. Gunakan metrik ini bersama CPU Utilization untuk memastikan bahwa core yang dialokasikan benar-benar digunakan secara aktif.
Job CPU Utilization	Rasio core CPU yang benar-benar digunakan oleh pekerjaan terhadap core CPU yang diminta. Utilisasi rendah mungkin mengindikasikan konfigurasi pekerjaan yang tidak efisien atau anomali beban kerja. Tinjau spesifikasi pekerjaan dan pola beban kerja untuk meningkatkan efisiensi.
Job Memory Usage	Rasio memori yang benar-benar digunakan oleh pekerjaan terhadap memori yang diminta. Untuk mencegah luapan buffer atau kekurangan memori akibat penggunaan memori yang terlalu tinggi, sesuaikan permintaan memori atau tingkatkan spesifikasi node agar sesuai dengan penggunaan aktual.