Operasi LLM - Application Real-Time Monitoring Service

Setelah menginstal agen ARMS untuk Python pada aplikasi Large Language Model (LLM), Application Real-Time Monitoring Service (ARMS) dapat mulai memantau aplikasi tersebut. Anda dapat melihat informasi seperti jumlah operasi, durasi, dan jumlah kesalahan untuk Penyematan, Pengambilan & Pemeringkatan Ulang, Pemanggilan Alat, serta Pemanggilan Tugas di aplikasi Anda pada tab Operasi LLM halaman detail aplikasi.

Prasyarat

Agen ARMS telah diinstal untuk aplikasi LLM. Untuk informasi lebih lanjut, lihat Pantau aplikasi LLM dan layanan inferensi di ARMS.

Pergi ke tab Operasi LLM

Di bilah navigasi atas, pilih tab dari daftar dropdown Operasi LLM.

Analisis Penyematan

Dalam aplikasi LLM, Penyematan merupakan teknik untuk mengonversi teks, gambar, atau jenis data lainnya menjadi vektor berdimensi rendah. Vektor ini menangkap informasi semantik dari data dan digunakan untuk tugas-tugas seperti perhitungan kesamaan, pengambilan, serta klasifikasi.

Melalui Analisis Penyematan, Anda dapat secara komprehensif memantau kinerja, stabilitas, dan efektivitas fungsi Penyematan, memberikan dukungan data untuk optimasi dan pemeliharaan aplikasi LLM.

Panel	Deskripsi
Jumlah Penyematan	Jumlah total pemanggilan Penyematan dalam periode waktu tertentu.
Rata-rata Waktu Penyematan	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Penyematan dalam periode waktu tertentu.
Jumlah Kesalahan Penyematan	Jumlah pemanggilan Penyematan yang gagal dalam periode waktu tertentu.
Jumlah Penyematan/1m	Jumlah total pemanggilan Penyematan per menit.
Waktu Penyematan/1m	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Penyematan per menit.
Kesalahan Penyematan/1m	Jumlah pemanggilan Penyematan yang gagal per menit.
Jumlah Penyematan (Top5)	Menampilkan 5 fungsi atau model Penyematan teratas dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah panggilan.
Peringkat Waktu Konsumsi Penyematan (Top5)	Menampilkan 5 fungsi atau model Penyematan teratas dengan rata-rata waktu konsumsi terlama, diurutkan dari tertinggi ke terendah berdasarkan rata-rata waktu yang dikonsumsi.
Peringkat Kesalahan Penyematan (Top5)	Menampilkan 5 fungsi atau model Penyematan teratas dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.

Peningkatan Pencarian

Dalam aplikasi LLM, Retrieval-Augmented Generation (RAG) merupakan teknik yang menggabungkan Pengambilan dan Pemeringkatan Ulang guna meningkatkan relevansi dan akurasi konten yang dihasilkan oleh LLM.

Dengan memantau metrik terkait Pengambilan dan Pemeringkatan Ulang, Anda dapat secara komprehensif mengevaluasi kinerja, stabilitas, dan efektivitas fungsi peningkatan pencarian, memberikan dukungan data untuk mengoptimalkan LLM.

Panel	Deskripsi
Pengambilan
Jumlah panggilan	Jumlah total pemanggilan Pengambilan dalam periode waktu tertentu.
Rata-rata waktu panggilan	Rata-rata waktu yang dikonsumsi oleh semua operasi Pengambilan dalam periode waktu tertentu.
Jumlah kesalahan	Jumlah pemanggilan Pengambilan yang gagal dalam periode waktu tertentu.
Jumlah panggilan/1m	Jumlah total pemanggilan Pengambilan per menit.
Waktu panggilan/1m	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Pengambilan per menit.
Jumlah kesalahan/1m	Jumlah pemanggilan Pengambilan yang gagal per menit.
Pemeringkatan Ulang
Jumlah panggilan	Jumlah total pemanggilan Pemeringkatan Ulang dalam periode waktu tertentu.
Rata-rata waktu panggilan	Rata-rata waktu yang dikonsumsi oleh semua operasi Pemeringkatan Ulang dalam periode waktu tertentu.
Jumlah kesalahan	Jumlah pemanggilan Pemeringkatan Ulang yang gagal dalam periode waktu tertentu.
Jumlah panggilan/1m	Jumlah total pemanggilan Pemeringkatan Ulang per menit.
Waktu panggilan/1m	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan Pemeringkatan Ulang per menit.
Jumlah kesalahan/1m	Jumlah pemanggilan Pemeringkatan Ulang yang gagal per menit.

Pemanggilan Alat

Dalam aplikasi LLM, Pemanggilan Alat merujuk pada proses di mana LLM memanggil alat eksternal atau API untuk menyelesaikan fungsi tertentu saat menjalankan tugas. Alat-alat ini mencakup kalkulator, antarmuka kueri basis data, mesin pencari, dan layanan terjemahan, yang berfungsi untuk memperluas kemampuan LLM sehingga dapat menangani tugas yang lebih kompleks atau spesifik.

Dengan memantau data terkait pemanggilan alat, Anda dapat secara komprehensif menilai interaksi antara aplikasi LLM dan alat eksternal, memberikan dukungan data untuk optimasi dan pemeliharaan.

Panel	Deskripsi
Jumlah panggilan	Jumlah total pemanggilan alat dalam periode waktu tertentu.
Rata-rata waktu panggilan	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan alat dalam periode waktu tertentu.
Jumlah kesalahan	Jumlah pemanggilan alat yang gagal dalam periode waktu tertentu.
Jumlah panggilan/10m	Jumlah total pemanggilan alat per menit.
Waktu panggilan/10m	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan alat per menit.
Kesalahan Panggilan/10m	Jumlah pemanggilan alat yang gagal per menit.
Peringkat Panggilan (Top5)	Menampilkan 5 alat teratas dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah panggilan.
Baris Waktu Panggilan (Top5)	Menampilkan 5 alat teratas dengan rata-rata waktu konsumsi terlama, diurutkan dari tertinggi ke terendah berdasarkan rata-rata waktu yang dikonsumsi.
Peringkat Kesalahan (Top5)	Menampilkan 5 alat teratas dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.

Pemanggilan Metode

Dalam aplikasi LLM, Tugas merujuk pada metode kustom internal, seperti pemanggilan metode lokal yang dieksekusi oleh aplikasi atau operasi tugas penting.

Dengan memantau data terkait pemanggilan tugas, Anda dapat secara komprehensif mengevaluasi status pemanggilan metode internal dalam aplikasi LLM, memberikan dukungan data untuk optimasi dan pemeliharaan. Ini memungkinkan pemahaman yang lebih mendalam tentang seberapa efektif dan efisien proses internal ini bekerja, membantu mengidentifikasi hambatan atau area untuk perbaikan.

Panel	Deskripsi
Jumlah panggilan	Jumlah total pemanggilan tugas dalam periode waktu tertentu.
Rata-rata waktu panggilan	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan tugas dalam periode waktu tertentu.
Jumlah kesalahan pemanggilan model	Jumlah pemanggilan tugas yang gagal dalam periode waktu tertentu.
Jumlah panggilan/10m	Jumlah total pemanggilan tugas per menit.
Waktu panggilan/10m	Rata-rata waktu yang dikonsumsi oleh semua pemanggilan tugas per menit.
Kesalahan Pemanggilan Model/10m	Jumlah pemanggilan tugas yang gagal per menit.
Peringkat Panggilan	Menampilkan 5 tugas teratas dengan jumlah pemanggilan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah pemanggilan.
Baris Waktu Panggilan (Top5)	Menampilkan 5 tugas teratas dengan rata-rata waktu pemrosesan terlama, diurutkan dari tertinggi ke terendah berdasarkan rata-rata waktu yang dikonsumsi.
Peringkat Kesalahan (Top5)	Menampilkan 5 tugas teratas dengan tingkat kesalahan tertinggi, diurutkan dari tertinggi ke terendah berdasarkan jumlah kesalahan pemanggilan.

Application Real-Time Monitoring Service：Operasi LLM