全部产品
Search
文档中心

Application Real-Time Monitoring Service:Analisis kinerja

更新时间:Jun 27, 2025

Setelah menginstal agen ARMS untuk Python pada aplikasi Large Language Model (LLM), Application Real-Time Monitoring Service (ARMS) dapat mulai memantau aplikasi tersebut. Anda dapat melihat informasi seperti jumlah panggilan LLM, durasi rata-rata, dan jumlah kesalahan pemanggilan di tab Analisis kinerja pada halaman detail aplikasi.

Prasyarat

Agen ARMS telah diinstal untuk aplikasi LLM. Untuk informasi lebih lanjut, lihat Pemantauan aplikasi LLM dan layanan inferensi di ARMS.

Pergi ke tab Analisis kinerja

  1. Di bilah navigasi atas, klik tab Analisis kinerja.

    image

    Panel

    Deskripsi

    Jumlah panggilan model

    Jumlah kali LLM dipanggil oleh aplikasi dalam periode waktu tertentu.

    Waktu Rata-Rata Panggilan Model

    Durasi rata-rata yang diperlukan oleh aplikasi untuk memanggil LLM dalam periode waktu tertentu.

    Jumlah kesalahan panggilan model

    Jumlah upaya gagal untuk memanggil LLM oleh aplikasi dalam periode waktu tertentu.

    Jumlah panggilan model/10m

    Frekuensi pemanggilan LLM oleh aplikasi per menit.

    Waktu rata-rata panggilan model/10m

    Durasi rata-rata untuk memanggil LLM per menit.

    Kesalahan Panggilan Model/10m

    Jumlah kesalahan pemanggilan yang terjadi per menit.

    Kuantil waktu konsumsi model (P99)/1m

    Nilai persentil P99 dari waktu yang dikonsumsi per menit oleh aplikasi saat memanggil LLM.

    Waktu rata-rata untuk memanggil paket pertama/10m

    Rata-rata waktu yang diperlukan aplikasi untuk menerima paket data pertama dari LLM per menit.

    Kuantil waktu konsumsi paket pertama model (P99)/1m

    Nilai persentil P99 dari waktu yang diperlukan untuk mengembalikan paket pertama ketika aplikasi memanggil LLM per menit.

    Peringkat 5 Teratas Panggilan Model

    Menampilkan 5 model dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah panggilan.

    Peringkat 5 Teratas Waktu Rata-Rata Panggilan Model

    Menampilkan 5 model dengan durasi rata-rata terlama, diurutkan dari tertinggi ke terendah berdasarkan waktu rata-rata yang dikonsumsi.

    Peringkat 5 Teratas Kesalahan Panggilan Model

    Menampilkan 5 model dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.

Referensi