Setelah menginstal agen ARMS untuk Python pada aplikasi Large Language Model (LLM), Application Real-Time Monitoring Service (ARMS) dapat mulai memantau aplikasi tersebut. Anda dapat melihat informasi seperti jumlah panggilan LLM, durasi rata-rata, dan jumlah kesalahan pemanggilan di tab Analisis kinerja pada halaman detail aplikasi.
Prasyarat
Agen ARMS telah diinstal untuk aplikasi LLM. Untuk informasi lebih lanjut, lihat Pemantauan aplikasi LLM dan layanan inferensi di ARMS.
Pergi ke tab Analisis kinerja
Di bilah navigasi atas, klik tab Analisis kinerja.

Panel
Deskripsi
Jumlah panggilan model
Jumlah kali LLM dipanggil oleh aplikasi dalam periode waktu tertentu.
Waktu Rata-Rata Panggilan Model
Durasi rata-rata yang diperlukan oleh aplikasi untuk memanggil LLM dalam periode waktu tertentu.
Jumlah kesalahan panggilan model
Jumlah upaya gagal untuk memanggil LLM oleh aplikasi dalam periode waktu tertentu.
Jumlah panggilan model/10m
Frekuensi pemanggilan LLM oleh aplikasi per menit.
Waktu rata-rata panggilan model/10m
Durasi rata-rata untuk memanggil LLM per menit.
Kesalahan Panggilan Model/10m
Jumlah kesalahan pemanggilan yang terjadi per menit.
Kuantil waktu konsumsi model (P99)/1m
Nilai persentil P99 dari waktu yang dikonsumsi per menit oleh aplikasi saat memanggil LLM.
Waktu rata-rata untuk memanggil paket pertama/10m
Rata-rata waktu yang diperlukan aplikasi untuk menerima paket data pertama dari LLM per menit.
Kuantil waktu konsumsi paket pertama model (P99)/1m
Nilai persentil P99 dari waktu yang diperlukan untuk mengembalikan paket pertama ketika aplikasi memanggil LLM per menit.
Peringkat 5 Teratas Panggilan Model
Menampilkan 5 model dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah panggilan.
Peringkat 5 Teratas Waktu Rata-Rata Panggilan Model
Menampilkan 5 model dengan durasi rata-rata terlama, diurutkan dari tertinggi ke terendah berdasarkan waktu rata-rata yang dikonsumsi.
Peringkat 5 Teratas Kesalahan Panggilan Model
Menampilkan 5 model dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.