Gunakan modul evaluasi kinerja untuk mengevaluasi pipeline pengembangan RAG yang disediakan oleh AI Search Open Platform - OpenSearch

Gunakan modul evaluasi kinerja untuk mengevaluasi secara komprehensif pipeline pengembangan RAG (Retrieval-Augmented Generation) pada AI Search Open Platform, mencakup seluruh proses mulai dari pertanyaan awal pengguna hingga pengambilan (retrieval) oleh sistem RAG dan pembuatan jawaban oleh LLM (Large Language Model).

Prasyarat

Anda telah mengaktifkan layanan AI Search Open Platform. Untuk informasi selengkapnya, lihat Aktifkan layanan.

Prosedur

Masuk ke Konsol AI Search Open Platform.
Pilih wilayah China (Shanghai), beralih ke AI Search Open Platform, lalu pilih ruang kerja target.
Catatan
- AI Search Open Platform saat ini hanya tersedia di wilayah China (Shanghai) dan Jerman (Frankfurt).
- Pengguna di wilayah China (Hangzhou), China (Shenzhen), China (Beijing), China (Zhangjiakou), dan China (Qingdao) dapat mengakses layanan di wilayah berbeda dengan menggunakan alamat VPC.
- Ruang kerja mengisolasi dan mengelola data. Setelah Anda mengaktifkan AI Search Open Platform untuk pertama kalinya, sistem secara otomatis membuat ruang kerja Default. Anda juga dapat membuat ruang kerja.
Pada panel navigasi, pilih Effect Evaluation, lalu klik Effect Evaluation.

Pada halaman Create Evaluation Task, masukkan nama task dan unggah set data evaluasi menggunakan format yang ditentukan dalam Sample data.

Penting

Set data evaluasi dapat berisi maksimal 200 entri valid. Jika melebihi batas ini, sistem akan mengembalikan error.
Ikuti templat contoh secara tepat saat mengunggah set data evaluasi. Jawaban referensi bersifat opsional, tetapi Anda tidak boleh mencampur pertanyaan yang memiliki dan tidak memiliki jawaban referensi dalam satu set data yang sama.

Task Name harus terdiri dari 1 hingga 30 karakter, dimulai dengan huruf, dan hanya boleh berisi huruf, angka, serta garis bawah (_). Set data evaluasi harus berupa file Excel. Penagihan task didasarkan pada sumber daya komputasi yang dikonsumsi selama evaluasi kinerja.

Tabel berikut menjelaskan bidang dalam templat evaluasi dan metrik evaluasi utama.

Parameter	Deskripsi
question	Pertanyaan Anda.
standard_answer	Jawaban referensi. Bidang ini opsional dan memengaruhi metrik yang dikembalikan dalam laporan evaluasi. Jika jawaban referensi disediakan, metrik evaluasi berikut digunakan: faithfulness: Mengukur konsistensi faktual jawaban yang dihasilkan model terhadap dokumen yang diambil. Nilai 1 menunjukkan jawaban konsisten (tidak ada halusinasi), sedangkan 0 menunjukkan adanya halusinasi. context precision: Mengukur seberapa akurat dokumen yang diambil mendukung jawaban referensi. Nilai 1 menunjukkan akurat. Nilai 0 menunjukkan tidak akurat. context recall: Mengukur seberapa lengkap dokumen yang diambil mencakup informasi yang dibutuhkan oleh jawaban referensi. Nilai 1 menunjukkan lengkap. Nilai 0 menunjukkan tidak lengkap. satisfaction: Skor gabungan yang menunjukkan kualitas keseluruhan jawaban yang dihasilkan model dibandingkan dengan jawaban referensi. Jika jawaban yang dihasilkan model bebas dari halusinasi, akurat, dan lengkap, skor satisfaction adalah 1. Jika jawaban yang dihasilkan model bebas dari halusinasi tetapi tidak akurat atau tidak lengkap, skor satisfaction adalah 0,5. Jika jawaban yang dihasilkan model mengandung halusinasi, skor satisfaction adalah 0. comprehensive score: Skor gabungan yang dihitung dari faithfulness, context precision, context recall, dan satisfaction. Jika tidak ada jawaban referensi yang disediakan, metrik evaluasi berikut digunakan: context relevance: Seberapa relevan dokumen yang diambil terhadap pertanyaan. Nilai 1 menunjukkan relevan. Nilai 0 menunjukkan tidak relevan. credibility: Skor yang menunjukkan apakah jawaban yang dihasilkan model dapat dipercaya dan didasarkan pada hasil pengambilan yang diberikan. Skor 1 diberikan jika jawaban bebas dari halusinasi dan didasarkan pada dokumen yang diambil yang relevan. Ini mencakup kasus di mana model merespons dengan benar "Unable to answer" ketika tidak ada dokumen relevan yang diambil. Skor 0,5 diberikan jika jawaban bebas dari halusinasi tetapi didasarkan pada dokumen yang tidak relevan, atau jika model salah merespons "Unable to answer" padahal dokumen relevan telah diambil. Skor 0 diberikan jika jawaban mengandung halusinasi. faithfulness: Mengukur konsistensi faktual jawaban yang dihasilkan model terhadap dokumen yang diambil. Nilai 1 menunjukkan jawaban konsisten (tidak ada halusinasi), sedangkan 0 menunjukkan adanya halusinasi. comprehensive score: Skor gabungan yang dihitung dari context relevance, faithfulness, dan credibility.
recall_docs	Dokumen yang diambil.
model_answer	Jawaban yang dihasilkan model.

Setelah mengonfigurasi parameter, klik OK untuk membuat task evaluasi.

Status task evaluasi dapat berupa:
- Evaluating atau Failed: Anda dapat menghapus task evaluasi tersebut.
- Successful: Anda dapat mengunduh laporan evaluasi dalam format Excel. Laporan tersebut berisi dua sheet:
  - Sheet1 - Evaluation Task: Ikhtisar task evaluasi. Nilai rata-rata metrik dihitung dari semua pertanyaan yang berhasil dievaluasi.
    
    Sheet2 - Task Details: Data evaluasi terperinci untuk setiap pertanyaan.
    
    Daftar task evaluasi menampilkan semua informasi task dalam bentuk tabel, termasuk Task Name, Task Status (seperti Evaluating atau Successful), Creation Time, Completion Time, Evaluation Data (nama file data yang diunggah), dan kolom Actions. Setelah task selesai, statusnya berubah menjadi Successful. Pada kolom Actions, klik Download Report untuk mengunduh laporan evaluasi.