Setelah menginstal agen ARMS untuk Python pada aplikasi Large Language Model (LLM), Application Real-Time Monitoring Service (ARMS) dapat mulai memantau aplikasi tersebut. Anda dapat melihat informasi seperti jumlah operasi, durasi, dan jumlah kesalahan untuk Penyematan, Pengambilan & Pemeringkatan Ulang, Pemanggilan Alat, serta Pemanggilan Tugas di aplikasi Anda pada tab Operasi LLM halaman detail aplikasi.
Prasyarat
Agen ARMS telah diinstal untuk aplikasi LLM. Untuk informasi lebih lanjut, lihat Pantau aplikasi LLM dan layanan inferensi di ARMS.
Pergi ke tab Operasi LLM
Di bilah navigasi atas, pilih tab dari daftar dropdown Operasi LLM.
Analisis Penyematan
Dalam aplikasi LLM, Penyematan merupakan teknik untuk mengonversi teks, gambar, atau jenis data lainnya menjadi vektor berdimensi rendah. Vektor ini menangkap informasi semantik dari data dan digunakan untuk tugas-tugas seperti perhitungan kesamaan, pengambilan, serta klasifikasi.
Melalui Analisis Penyematan, Anda dapat secara komprehensif memantau kinerja, stabilitas, dan efektivitas fungsi Penyematan, memberikan dukungan data untuk optimasi dan pemeliharaan aplikasi LLM.

Panel
Deskripsi
Jumlah Penyematan
Jumlah total pemanggilan Penyematan dalam periode waktu tertentu.
Rata-rata Waktu Penyematan
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Penyematan dalam periode waktu tertentu.
Jumlah Kesalahan Penyematan
Jumlah pemanggilan Penyematan yang gagal dalam periode waktu tertentu.
Jumlah Penyematan/1m
Jumlah total pemanggilan Penyematan per menit.
Waktu Penyematan/1m
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Penyematan per menit.
Kesalahan Penyematan/1m
Jumlah pemanggilan Penyematan yang gagal per menit.
Jumlah Penyematan (Top5)
Menampilkan 5 fungsi atau model Penyematan teratas dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah panggilan.
Peringkat Waktu Konsumsi Penyematan (Top5)
Menampilkan 5 fungsi atau model Penyematan teratas dengan rata-rata waktu konsumsi terlama, diurutkan dari tertinggi ke terendah berdasarkan rata-rata waktu yang dikonsumsi.
Peringkat Kesalahan Penyematan (Top5)
Menampilkan 5 fungsi atau model Penyematan teratas dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.
Peningkatan Pencarian
Dalam aplikasi LLM, Retrieval-Augmented Generation (RAG) merupakan teknik yang menggabungkan Pengambilan dan Pemeringkatan Ulang guna meningkatkan relevansi dan akurasi konten yang dihasilkan oleh LLM.
Dengan memantau metrik terkait Pengambilan dan Pemeringkatan Ulang, Anda dapat secara komprehensif mengevaluasi kinerja, stabilitas, dan efektivitas fungsi peningkatan pencarian, memberikan dukungan data untuk mengoptimalkan LLM.

Panel
Deskripsi
Pengambilan
Jumlah panggilan
Jumlah total pemanggilan Pengambilan dalam periode waktu tertentu.
Rata-rata waktu panggilan
Rata-rata waktu yang dikonsumsi oleh semua operasi Pengambilan dalam periode waktu tertentu.
Jumlah kesalahan
Jumlah pemanggilan Pengambilan yang gagal dalam periode waktu tertentu.
Jumlah panggilan/1m
Jumlah total pemanggilan Pengambilan per menit.
Waktu panggilan/1m
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Pengambilan per menit.
Jumlah kesalahan/1m
Jumlah pemanggilan Pengambilan yang gagal per menit.
Pemeringkatan Ulang
Jumlah panggilan
Jumlah total pemanggilan Pemeringkatan Ulang dalam periode waktu tertentu.
Rata-rata waktu panggilan
Rata-rata waktu yang dikonsumsi oleh semua operasi Pemeringkatan Ulang dalam periode waktu tertentu.
Jumlah kesalahan
Jumlah pemanggilan Pemeringkatan Ulang yang gagal dalam periode waktu tertentu.
Jumlah panggilan/1m
Jumlah total pemanggilan Pemeringkatan Ulang per menit.
Waktu panggilan/1m
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Pemeringkatan Ulang per menit.
Jumlah kesalahan/1m
Jumlah pemanggilan Pemeringkatan Ulang yang gagal per menit.
Pemanggilan Alat
Dalam aplikasi LLM, Pemanggilan Alat merujuk pada proses di mana LLM memanggil alat eksternal atau API untuk menyelesaikan fungsi tertentu saat menjalankan tugas. Alat-alat ini mencakup kalkulator, antarmuka kueri basis data, mesin pencari, dan layanan terjemahan, yang berfungsi untuk memperluas kemampuan LLM sehingga dapat menangani tugas yang lebih kompleks atau spesifik.
Dengan memantau data terkait pemanggilan alat, Anda dapat secara komprehensif menilai interaksi antara aplikasi LLM dan alat eksternal, memberikan dukungan data untuk optimasi dan pemeliharaan.

Panel
Deskripsi
Jumlah panggilan
Jumlah total pemanggilan alat dalam periode waktu tertentu.
Rata-rata waktu panggilan
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan alat dalam periode waktu tertentu.
Jumlah kesalahan
Jumlah pemanggilan alat yang gagal dalam periode waktu tertentu.
Jumlah panggilan/10m
Jumlah total pemanggilan alat per menit.
Waktu panggilan/10m
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan alat per menit.
Kesalahan Panggilan/10m
Jumlah pemanggilan alat yang gagal per menit.
Peringkat Panggilan (Top5)
Menampilkan 5 alat teratas dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah panggilan.
Baris Waktu Panggilan (Top5)
Menampilkan 5 alat teratas dengan rata-rata waktu konsumsi terlama, diurutkan dari tertinggi ke terendah berdasarkan rata-rata waktu yang dikonsumsi.
Peringkat Kesalahan (Top5)
Menampilkan 5 alat teratas dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.
Pemanggilan Metode
Dalam aplikasi LLM, Tugas merujuk pada metode kustom internal, seperti pemanggilan metode lokal yang dieksekusi oleh aplikasi atau operasi tugas penting.
Dengan memantau data terkait pemanggilan tugas, Anda dapat secara komprehensif mengevaluasi status pemanggilan metode internal dalam aplikasi LLM, memberikan dukungan data untuk optimasi dan pemeliharaan. Ini memungkinkan pemahaman yang lebih mendalam tentang seberapa efektif dan efisien proses internal ini bekerja, membantu mengidentifikasi hambatan atau area untuk perbaikan.

Panel
Deskripsi
Jumlah panggilan
Jumlah total pemanggilan tugas dalam periode waktu tertentu.
Rata-rata waktu panggilan
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan tugas dalam periode waktu tertentu.
Jumlah kesalahan pemanggilan model
Jumlah pemanggilan tugas yang gagal dalam periode waktu tertentu.
Jumlah panggilan/10m
Jumlah total pemanggilan tugas per menit.
Waktu panggilan/10m
Rata-rata waktu yang dikonsumsi oleh semua pemanggilan tugas per menit.
Kesalahan Pemanggilan Model/10m
Jumlah pemanggilan tugas yang gagal per menit.
Peringkat Panggilan
Menampilkan 5 tugas teratas dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah pemanggilan.
Baris Waktu Panggilan (Top5)
Menampilkan 5 tugas teratas dengan rata-rata waktu pemrosesan terlama, diurutkan dari tertinggi ke terendah berdasarkan rata-rata waktu yang dikonsumsi.
Peringkat Kesalahan (Top5)
Menampilkan 5 tugas teratas dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.