All Products
Search
Document Center

OpenSearch:Kelola tugas evaluasi

Last Updated:Nov 05, 2025

Gunakan modul evaluasi performa untuk menilai pipa pengembangan Retrieval-Augmented Generation (RAG) yang disediakan oleh AI Search Open Platform. Evaluasi ini mencakup seluruh proses, mulai dari pertanyaan pengguna hingga pengambilan konten oleh sistem RAG dan pembuatan jawaban oleh Large Language Model (LLM).

Prasyarat

Aktifkan layanan AI Search Open Platform. Untuk informasi lebih lanjut, lihat Aktifkan Layanan.

Prosedur

  1. Masuk ke Konsol AI Search Open Platform.

  2. Pilih Wilayah Shanghai, beralih ke AI Search Open Platform, lalu pilih ruang kerja target.

    Catatan
    • Saat ini, fitur AI Search Open Platform hanya tersedia di wilayah Shanghai dan Jerman (Frankfurt).

    • Pengguna di wilayah Hangzhou, Shenzhen, Beijing, Zhangjiakou, dan Qingdao dapat memanggil layanan AI Search Open Platform lintas wilayah menggunakan alamat VPC.

    • Ruang kerja digunakan untuk mengisolasi dan mengelola data. Setelah Anda mengaktifkan layanan AI Search Open Platform untuk pertama kali, sistem secara otomatis membuat ruang kerja Default. Anda juga dapat membuat ruang kerja.

  3. Di panel navigasi sebelah kiri, pilih Effect Evaluation, lalu klik Buat Tugas Evaluasi.

  4. Di halaman Buat Tugas Evaluasi, masukkan nama tugas dan unggah set data evaluasi dalam format Sample data yang disediakan.

    Penting
    • Set data evaluasi dapat berisi maksimal 200 entri data yang valid. Jika Anda melebihi batas ini, sistem akan melaporkan kesalahan.

    • Anda harus secara ketat mengikuti templat contoh untuk mengunggah set data evaluasi. Jawaban referensi bersifat opsional. Namun, untuk satu set data, semua pertanyaan harus menyertakan atau menghilangkan jawaban referensi.

    image

    Tabel berikut menjelaskan templat evaluasi dan metrik evaluasi utama.

    Parameter

    Deskripsi

    question

    Pertanyaan Anda.

    standard_answer

    Jawaban referensi. Parameter ini bisa kosong, yang mempengaruhi metrik evaluasi yang dilaporkan dalam laporan.

    • Jika jawaban referensi diberikan, metrik evaluasi adalah sebagai berikut:

      • Faithfulness: Laju halusinasi antara dokumen yang diambil dan jawaban yang dibuat model. Nilainya adalah 0 untuk halusinasi dan 1 untuk tidak ada halusinasi.

      • Context Precision: Akurasi antara jawaban referensi dan dokumen yang diambil. Nilainya adalah 1 untuk akurat dan 0 untuk tidak akurat.

      • Context Recall: Integritas antara dokumen yang diambil dan jawaban referensi. Nilainya adalah 1 untuk pengambilan lengkap dan 0 untuk pengambilan tidak lengkap.

      • Satisfaction: Perbandingan antara jawaban yang dibuat model dan jawaban referensi:

        • Jika jawaban yang dibuat model tidak memiliki halusinasi dan akurat serta lengkap, skor kepuasan adalah 1.

        • Jika jawaban yang dibuat model tidak memiliki halusinasi tetapi informasinya tidak akurat atau tidak lengkap, skor kepuasan adalah 0,5.

        • Jika jawaban yang dibuat model memiliki halusinasi, skor kepuasan adalah 0.

      • Comprehensive Score: Skor gabungan dari faithfulness, context precision, context recall, dan satisfaction.

    • Jika tidak ada jawaban referensi yang diberikan, metrik evaluasi adalah sebagai berikut:

      • Context Relevance: Relevansi antara pertanyaan dan dokumen yang diambil. Nilainya adalah 1 untuk relevan dan 0 untuk tidak relevan.

      • Credibility: Kredibilitas jawaban yang dibuat model terkait dengan pertanyaan.

        • Jika jawaban yang dibuat model tidak memiliki halusinasi dan dibuat berdasarkan hasil pengambilan yang relevan (atau jika jawabannya adalah "tidak dapat menjawab" ketika tidak ada hasil relevan yang diambil), skor kredibilitas adalah 1.

        • Jika jawaban yang dibuat model tidak memiliki halusinasi tetapi didasarkan pada hasil pengambilan yang tidak relevan, atau jika jawabannya adalah "tidak dapat menjawab" meskipun hasil relevan telah diambil, skor kredibilitas adalah 0,5.

        • Jika jawaban yang dibuat model memiliki halusinasi, skor kredibilitas adalah 0.

      • Faithfulness: Laju halusinasi antara dokumen yang diambil dan jawaban yang dibuat model. Nilainya adalah 0 untuk halusinasi dan 1 untuk tidak ada halusinasi.

      • Comprehensive Score: Skor gabungan dari context relevance, faithfulness, dan credibility.

    recall_docs

    Dokumen yang diambil.

    model_answer

    Jawaban yang dibuat oleh model.

  5. Setelah mengonfigurasi parameter, klik OK untuk membuat tugas evaluasi.

    Berikut adalah status tugas evaluasi:

    • Evaluating atau Failed: Anda dapat menghapus tugas evaluasi.

    • Successful: Anda dapat mengunduh laporan evaluasi sebagai file Excel. Laporan tersebut memiliki dua bagian:

      • Sheet1 - Tugas Evaluasi: Memberikan gambaran umum tentang tugas evaluasi. Lembar ini menunjukkan nilai rata-rata metrik yang dihitung dari semua pertanyaan yang berhasil dievaluasi.

        Sheet2 - Detail Tugas: Memberikan data evaluasi rinci untuk setiap pertanyaan.

        image