Evaluasi Aplikasi - Platform For AI - Alibaba Cloud Documentation Center

Sebelum men-deploy aplikasi ke lingkungan produksi, evaluasi kinerjanya dalam skenario bisnis spesifik Anda. LangStudio menyediakan layanan evaluasi alur aplikasi yang komprehensif dan memberi skor pada aplikasi berdasarkan berbagai dimensi menggunakan templat evaluasi.

Ikhtisar

LangStudio menyediakan kemampuan evaluasi alur aplikasi terpadu. Anda hanya perlu mengonfigurasi pengaturan seperti set data evaluasi dan pemetaan input alur aplikasi, lalu memilih templat evaluasi sesuai kebutuhan untuk mengirimkan tugas evaluasi. Seluruh proses evaluasi melibatkan pemrosesan secara batch setiap baris dalam set data evaluasi oleh aplikasi guna menghasilkan output yang sesuai. Selanjutnya, kualitas setiap output dievaluasi berdasarkan bidang-bidang tambahan dalam set data evaluasi tersebut. Skor-skor ini kemudian diagregasi untuk menampilkan akurasi aplikasi pada set data yang ditentukan.

Sebelum Anda mulai

Buat dan debug alur aplikasi. Untuk informasi lebih lanjut, lihat Mengembangkan alur aplikasi.

Siapkan set data evaluasi dan unggah ke Object Storage Service (OSS). File harus dalam format JSON Lines (JSONL). Kode berikut memberikan contoh:

{"history":[],"query": "Describe the perilous majesty of Mount Hua", "reference": "Mount Hua stands alone, soaring to the clouds; \nSheer cliffs cut the sky, with rugged, handsome crags. \nGreen pines and bamboo vie for beauty on the cliffs; \nMonkeys cry and eagles fly, lit by frosty swords of light. \n\nPerilous peaks like scissors, jagged swords pointing to the sky; \nNarrow paths on steep slopes, where vines are the only way. \nWind and mist intertwine, as clouds emerge from caves; \nA deep fairyland, with a heavenly ladder hard to climb. \n\nJagged ridges cross, like a surging dragon's spine; \nDangerous paths lead onward, twisting toward the heavens. \nFrom lonely pine tops, eagles strike the vast sky; \nAt the summit of Mount Hua, a majestic and heroic sight.", "contexts": ["Mount Hua is one of the Five Great Mountains of China.", "Mount Hua is famous for its precipitous cliffs."]}
{"history":[],"query": "Can you list 5 rare metals? Please rank them by global demand.", "reference": "Rare metals are metallic elements that are scarce in the Earth's crust, unevenly distributed, or difficult to mine. They play a crucial role in high-tech fields and emerging industries. The ranking of global demand can change with time and technological progress, but the following are some rare metals that are typically in high demand. This list is not necessarily ranked by absolute demand, as that can vary at different times.\n\n1. **Cobalt (Co)** - Cobalt is a key component of lithium-ion batteries, especially in electric vehicles and portable electronics. It is also used to manufacture heat-resistant alloys, hard alloys, and catalysts.\n\n2. **Neodymium (Nd)** - Neodymium is a rare-earth metal mainly used to produce strong magnets, such as high-performance permanent magnets. These magnets are widely used in computer hard drives, wind turbines, and the drive motors of electric vehicles.\n\n3. **Lithium (Li)** - Lithium is primarily used to manufacture lithium batteries. As the demand for electric vehicles and portable electronic devices increases, the demand for lithium is rising rapidly.\n\n4. **Silver (Ag)** - Although silver is not as rare as the metals listed above, its industrial demand is huge. It is mainly used in electronics, solar panels, jewelry, and currency manufacturing.\n\n5. **Ruthenium (Ru)** - Ruthenium is a rare precious metal widely used for data storage in hard disk drives and large-capacity servers. It is also used in catalysts and electrochemical cells.\n\nThe demand for these metals is influenced by many factors, such as the global economy, technological development, and policy support. Moreover, as time passes and markets change, other rare metals such as tantalum, indium, rhenium, and other rare-earth metals may also appear on the list of most in-demand rare metals.", "contexts": ["Rare metals are metals with low abundance in the Earth's crust that are complex to mine and extract.", "Lithium (Li): Used in battery manufacturing.", "Cobalt (Co): Used in high-performance alloys and battery manufacturing."]}

File contoh: langstudio_eval_demo.jsonl

Buat koneksi LLM yang diperlukan untuk evaluasi. Untuk informasi lebih lanjut, lihat konfigurasi koneksi.
Catatan: Beberapa templat evaluasi bergantung pada judge model. Anda harus mengonfigurasi koneksi LLM yang sesuai untuk templat tersebut.

Penagihan

Fitur evaluasi alur aplikasi menggunakan OSS untuk menyimpan set data evaluasi dan menjalankan tugas evaluasi offline menggunakan Platform of Artificial Intelligence-Deep Learning Containers (PAI-DLC). Anda akan dikenai biaya atas penggunaan resource ini. Untuk informasi lebih lanjut, lihat Penagihan OSS dan Penagihan Deep Learning Containers (DLC).

Buat tugas evaluasi

Setelah Anda melakukan debug aplikasi di halaman pengembangan, klik Evaluation di pojok kanan atas untuk membuat tugas evaluasi.

Tabel berikut menjelaskan parameter utama.

Parameter	Deskripsi
Set data evaluasi
OSS file	Pilih file JSONL dari OSS sebagai set data evaluasi Anda. Set data harus berisi bidang `question`, yang berfungsi sebagai input untuk alur aplikasi, serta bidang lain yang diperlukan untuk evaluasi. Sistem menggunakan bidang tambahan tersebut untuk menghitung skor metrik. Untuk informasi lebih lanjut, lihat bagian "Input fields" dalam Lampiran: Templat evaluasi preset.
Pemetaan input alur aplikasi
question/chat_history	Pilih bidang input untuk aplikasi. Catatan: Tugas evaluasi pertama-tama menjalankan aplikasi Anda untuk inferensi, lalu mengevaluasi hasilnya. Oleh karena itu, Anda harus memilih bidang input yang dibutuhkan aplikasi agar dapat berjalan. Dalam mode workflow, bidang input didefinisikan oleh node awal. Bidang input biasanya berupa `question` dan `chat_history`. Dalam mode kode, satu-satunya bidang input adalah `question`.
Konfigurasi evaluasi
Evaluasi templat preset	Sistem menyediakan beberapa templat evaluasi preset. Jika Anda memilih beberapa templat, hasil evaluasi akan diagregasi di halaman detail tugas. Topik ini menggunakan templat Answer Correctness Evaluation sebagai contoh. Saat Anda memilih templat ini, Anda harus mengonfigurasi parameter berikut: Tabel berikut menjelaskan parameter utama. `model_configuration`: LLM yang berperan sebagai judge model. Anda harus memilih LLM untuk menjadi juri. Model juri mengevaluasi apakah `question` dan `answer` dari aplikasi yang dievaluasi merupakan pasangan yang baik. Kami merekomendasikan memilih model yang kuat, seperti qwen3-max. `reference`: Kolom referensi dari set data evaluasi. Dalam contoh ini, templat Answer Correctness Evaluation menerima pertanyaan (`question`), jawaban yang dihasilkan aplikasi (`answer`), dan referensi (`reference`). Templat tersebut kemudian memberikan skor kebenaran berdasarkan pertanyaan dan referensi. LangStudio secara otomatis menangkap pertanyaan dan jawaban aplikasi. Anda hanya perlu menentukan kolom referensi. Catatan: Hanya beberapa templat evaluasi yang memerlukan konfigurasi jenis ini. Sebagian besar templat hanya memerlukan Anda mengonfigurasi judge model. Untuk informasi lebih lanjut tentang templat, lihat Lampiran: Templat evaluasi preset.
Evaluasi kustom	Sistem menyediakan templat khusus yang memungkinkan Anda membuat evaluasi kustom. Anda dapat menyesuaikan prompt evaluasi. Anda dapat menyiapkan beberapa evaluasi kustom, tetapi masing-masing harus memiliki nama yang unik. Gunakan `judge_template` untuk mengonfigurasi templat evaluasi. Beberapa contoh disediakan yang dapat Anda sesuaikan lebih lanjut. Namun, Anda harus mematuhi aturan berikut: Jangan mengubah deskripsi format output dalam prompt. Terdapat tiga placeholder bawaan: `{query}` merepresentasikan kueri, `{messages}` merepresentasikan proses eksekusi Agent, dan `{response}` merepresentasikan respons Agent. Anda dapat menggunakan `{data.***}` untuk mereferensikan bidang dari set data. Misalnya, `{data.judge}` mereferensikan bidang `judge`. Untuk informasi lebih lanjut, lihat contoh `Dynamic Rule Evaluation`. Karakter `{}` adalah karakter khusus yang merepresentasikan variabel. Jika Anda perlu menyertakan karakter ini dalam prompt, gunakan `{{}}`.
Konfigurasi resource: Resource ini hanya digunakan untuk penjadwalan tugas evaluasi. Kami merekomendasikan Anda memilih CPU resources yang sesuai berdasarkan kompleksitas tugas.

Lihat hasil evaluasi

Setelah Anda mengirimkan tugas evaluasi, LangStudio akan mengarahkan Anda ke halaman Overview tugas. Setiap evaluasi terdiri dari tahap Batch Run dan Metric Evaluation. Tahap Batch Run memproses setiap baris set data untuk menghasilkan output. Pada tahap Metric Evaluation, sistem memberi skor pada setiap output dari batch run menggunakan bidang-bidang tambahan dalam set data evaluasi. Setelah proses selesai, Anda dapat melihat jejak, metrik, dan detail output untuk setiap subtugas.

Di halaman Metrics, Anda dapat melihat semua hasil metrik evaluasi. Untuk informasi lebih lanjut tentang nama metrik, lihat Lampiran: Templat evaluasi preset.

Lampiran: Templat evaluasi preset

LangStudio menyediakan beberapa templat evaluasi bawaan untuk menilai kinerja aplikasi dalam berbagai dimensi menggunakan skor metrik.

Nama templat	Deskripsi	Jenis layanan model	Bidang input
Exact Match Evaluation	Membandingkan kecocokan eksak antara output Agent dan referensi. Skor berkisar dari 0 hingga 1, di mana 0 menunjukkan tidak ada kecocokan dan 1 menunjukkan kecocokan sempurna.	None	`reference`: Referensi. Tipe data: String.
Answer Relevancy Evaluation	Menilai relevansi output aplikasi terhadap input. Metode ini mengandalkan LLM untuk memberi skor relevansi. Skor berkisar dari 1 hingga 5, di mana skor lebih tinggi menunjukkan jawaban lebih relevan terhadap kueri pengguna.	LLM	`model_configuration`: Model juri.
Answer Correctness Evaluation	Menilai konsistensi antara jawaban Agent dan referensi dalam hal akurasi faktual, cakupan informasi, dan kecocokan format. Skor berkisar dari 1 hingga 5, di mana skor lebih tinggi menunjukkan kecocokan lebih dekat dengan referensi.	LLM	`model_configuration`: Model juri. `reference` (Opsional): Referensi. Tipe data: String.
Instruction Following Evaluation	Menilai seberapa baik jawaban Agent mematuhi instruksi yang diberikan dalam hal konten, format, dan batasan. Skor berkisar dari 1 hingga 5, di mana skor lebih tinggi menunjukkan model mengikuti instruksi lebih akurat dan lengkap.	LLM	`model_configuration`: Model juri.
Answer Faithfulness Evaluation	Mendeteksi apakah jawaban Agent mengandung informasi yang direkayasa yang tidak didukung atau bertentangan dengan konteks yang diberikan. Skor berkisar dari 1 hingga 5, di mana skor lebih tinggi menunjukkan tingkat rekayasa lebih rendah dan kesetiaan lebih kuat terhadap konteks.	LLM	`model_configuration`: Model juri. `contexts`: Konteks. Tipe data: List[String].
Safety Evaluation	Mendeteksi konten berbahaya, menyinggung, atau tidak pantas dalam jawaban Agent untuk memastikan keamanan AI. Skor berkisar dari 1 hingga 5, di mana skor lebih tinggi menunjukkan konten lebih aman dan lebih pantas.	LLM	`model_configuration`: Model juri.
Trajectory Evaluation	Secara komprehensif mengevaluasi lintasan eksekusi Agent. Skor berkisar dari 1 hingga 5, di mana skor lebih tinggi menunjukkan kinerja lintasan secara keseluruhan lebih baik.	LLM	`model_configuration`: Model juri.