All Products
Search
Document Center

Platform For AI:Praktik terbaik untuk evaluasi LLM

Last Updated:Mar 19, 2026

Evaluasi performa LLM dengan membandingkan model dasar, versi fine-tuned, dan versi terkuantisasi menggunakan dataset kustom atau publik berdasarkan metrik otomatis.

Latar Belakang

Pendahuluan

Seiring kemajuan LLM, evaluasi yang ilmiah dan efisien semakin penting untuk mengukur serta membandingkan performa model. Evaluasi ini membimbing pemilihan dan optimalisasi model, mempercepat inovasi dan penerapan AI.

PAI menyediakan praktik terbaik untuk evaluasi LLM guna membantu pengembang AI membangun proses evaluasi yang mencerminkan performa model sebenarnya dan memenuhi kebutuhan industri spesifik. Topik yang dibahas meliputi:

  • Menyiapkan dan memilih dataset evaluasi

  • Memilih model open source atau hasil fine-tuning

  • Membuat tugas evaluasi dan memilih metode evaluasi

  • Menginterpretasikan hasil tugas dalam skenario satu tugas atau multi-tugas

Fitur platform

Evaluasi LLM PAI membandingkan performa model di berbagai skenario:

  • Membandingkan model dasar: Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

  • Membandingkan versi fine-tuned dari model yang sama (misalnya, versi epoch berbeda dari Qwen2-7B-Instruct yang dilatih pada data privat)

  • Membandingkan versi terkuantisasi: Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

PAI menjawab kebutuhan pengembang enterprise dan peneliti algoritma dengan menggabungkan dataset kustom dan dataset publik (MMLU, C-Eval) untuk evaluasi model yang komprehensif, akurat, dan terarah. Fitur-fiturnya meliputi:

  • Pipa evaluasi end-to-end tanpa perlu pengembangan kode. Mendukung LLM open source utama dan evaluasi satu klik setelah fine-tuning.

  • Unggah dataset kustom. Lebih dari 10 metode evaluasi NLP bawaan dengan tampilan hasil terkonsolidasi.

  • Evaluasi pada dataset publik dari berbagai domain. Mereproduksi sepenuhnya metode evaluasi resmi dengan tampilan grafik radar panorama.

  • Evaluasi simultan beberapa model dan tugas dengan grafik perbandingan serta hasil detail per item.

  • Evaluasi transparan dan dapat direproduksi. Kode evaluasi bersifat open source di repositori eval-scope, yang dikembangkan bersama ModelScope.

Penagihan

Skenario 1: Evaluasi dataset kustom untuk pengembang enterprise

Enterprise sering kali mengumpulkan banyak data privat. Bagian penting dalam memanfaatkan LLM untuk optimalisasi algoritma adalah memanfaatkan data ini. Pengembang enterprise mengevaluasi LLM open source atau hasil fine-tuning menggunakan dataset kustom dari data privat untuk lebih memahami performa model dalam domain tertentu.

Untuk evaluasi dataset kustom, PAI menggunakan metode pencocokan teks standar dari NLP untuk menghitung kemiripan antara output model dan ground truth. Nilai yang lebih tinggi menunjukkan model yang lebih baik.

Langkah-langkah proses utama (untuk detail, lihat Evaluasi model):

  1. Siapkan set evaluasi kustom.

    1. Format:

      Siapkan file set evaluasi dalam format JSONL. Contoh: llmuses_general_qa_test.jsonl (76 KB):

      [{"question": "Is it true that China invented papermaking?", "answer": "True"}]
      [{"question": "Is it true that China invented gunpowder?", "answer": "True"}]

      Gunakan question untuk mengidentifikasi kolom pertanyaan dan answer untuk mengidentifikasi kolom jawaban.

    2. Unggah file set evaluasi ke OSS. Untuk informasi lebih lanjut, lihat Unggah file ke OSS.

    3. Buat dataset dari file OSS. Untuk informasi lebih lanjut, lihat Buat dataset dari produk Alibaba Cloud.

  2. Pilih model.

    Gunakan model open source

    Di Konsol PAI, buka Quick Start > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate untuk model yang didukung.

    image

    Gunakan model hasil fine-tuning

    Di Konsol PAI, buka Quick Start > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate. Setelah fine-tuning, buka Quick Start > Model Gallery > Job Management > Training Jobs. Klik pekerjaan pelatihan yang telah selesai untuk menampilkan tombol Evaluate.

    image

    Evaluasi model saat ini mendukung semua model jenis AutoModelForCausalLM dari Hugging Face.

  3. Buat dan jalankan tugas evaluasi.

    Klik Evaluate di halaman detail model untuk membuat tugas evaluasi.

    image

    Parameter utama:

    Parameter

    Deskripsi

    Base configuration

    Result Output Path

    Jalur OSS tempat hasil evaluasi disimpan.

    Custom Dataset Configuration

    Evaluation Method

    Opsi:

    • General Metric Evaluation: Menghitung kemiripan teks antara prediksi model dan jawaban referensi (ROUGE, BLEU). Cocok untuk jawaban definitif.

    • Judge Model Evaluation: Menggunakan model LLM-as-a-Judge untuk memberi skor jawaban secara otomatis. Tidak memerlukan jawaban referensi. Cocok untuk jawaban kompleks atau tidak unik. Hasil mencakup skor keseluruhan dan 5 metrik spesifik.

    LLM-as-a-Judge Service Token

    Diperlukan ketika Metode Evaluasi adalah LLM-as-a-Judge Evaluation. Dapatkan token dari halaman LLM-as-a-Judge.

    Dataset Source

    Pilih dataset yang sudah ada.

    Select an existing dataset.

    Pilih dataset kustom yang telah dibuat sebelumnya.

    Resource Configuration

    Resource Group Type

    Pilih kelompok sumber daya publik, sumber daya komputasi umum, atau sumber daya komputasi cerdas Lingjun.

    Job Resource

    Jika Jenis Kelompok Sumber Daya adalah kelompok sumber daya publik, sistem merekomendasikan sumber daya berdasarkan spesifikasi model.

    Klik Submit untuk memulai tugas.

  4. Lihat hasil evaluasi.

    Hasil tugas tunggal

    Saat Status tugas evaluasi di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs berubah menjadi Succeeded, klik Actions > View Report untuk melihat skor ROUGE dan BLEU di halaman Custom Dataset Evaluation Result.

    image

    Halaman ini juga menampilkan hasil evaluasi detail untuk setiap entri data.

    Hasil perbandingan multi-tugas

    Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, pilih tugas evaluasi model untuk dibandingkan. Klik Compare untuk melihat hasil perbandingan di halaman Custom Dataset Evaluation Result.

    image

    Analisis hasil:

    Metode evaluasi default untuk dataset kustom: rouge-1-f, rouge-1-p, rouge-1-r, rouge-2-f, rouge-2-p, rouge-2-r, rouge-l-f, rouge-l-p, rouge-l-r, bleu-1, bleu-2, bleu-3, dan bleu-4.

    • Metrik ROUGE-n menghitung tumpang tindih N-gram (N kata berurutan). ROUGE-1 dan ROUGE-2 paling umum digunakan, masing-masing merujuk pada unigram dan bigram. ROUGE-L berbasis Longest Common Subsequence (LCS).

    • BLEU (Bilingual Evaluation Understudy) mengevaluasi kualitas penerjemahan mesin dengan mengukur tumpang tindih N-gram antara output penerjemahan mesin dan terjemahan referensi. BLEU-n menghitung laju kecocokan N-gram.

    Hasil evaluasi akhir disimpan ke Output Path yang telah ditetapkan sebelumnya.

Skenario 2: Evaluasi dataset publik untuk peneliti algoritma

Penelitian algoritma sering kali mengandalkan dataset publik. Saat peneliti memilih model open source atau melakukan fine-tune model, mereka merujuk pada performa evaluasi pada dataset publik otoritatif. PAI menyediakan akses ke dataset publik dari berbagai domain dan mereproduksi sepenuhnya metrik evaluasi resmi untuk memperoleh umpan balik performa yang akurat, memfasilitasi penelitian LLM yang efisien.

Evaluasi dataset publik menilai kemampuan LLM secara komprehensif (matematika, pengetahuan, penalaran) dengan mengklasifikasikan dataset evaluasi open source berdasarkan domain. Nilai yang lebih tinggi menunjukkan model yang lebih baik.

Langkah-langkah proses utama (untuk detail, lihat Evaluasi model):

  1. Dataset publik yang didukung:

    PAI saat ini menyediakan dataset publik termasuk MMLU, TriviaQA, HellaSwag, GSM8K, C-Eval, CMMLU, dan TruthfulQA. Dataset tambahan sedang ditambahkan.

    Dataset

    Ukuran

    Volume data

    Domain

    MMLU

    166 MB

    14042

    Pengetahuan

    TriviaQA

    14,3 MB

    17944

    Pengetahuan

    C-Eval

    1,55 MB

    12342

    Bahasa Tionghoa

    CMMLU

    1,08 MB

    11582

    Bahasa Tionghoa

    GSM8K

    4,17 MB

    1319

    Matematika

    HellaSwag

    47,5 MB

    10042

    Penalaran

    TruthfulQA

    0,284 MB

    816

    Keamanan

  2. Pilih model.

    Gunakan model open source

    Di Konsol PAI, buka QuickStart > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate untuk model yang didukung.

    image

    Gunakan model hasil fine-tuning

    Di Konsol PAI, buka QuickStart > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate. Setelah melakukan fine-tuning pada model yang dapat dievaluasi, buka QuickStart > Model Gallery > Job Management > Training Jobs. Klik pekerjaan pelatihan yang berhasil untuk menampilkan tombol Evaluate.

    image

    Evaluasi model saat ini mendukung semua model jenis AutoModelForCausalLM dari Hugging Face.

  3. Buat dan jalankan tugas evaluasi.

    Klik Evaluate di halaman detail model untuk membuat tugas evaluasi.

    image

    Parameter

    Description

    Base configuration

    Result Output Path

    Jalur OSS tempat hasil evaluasi disimpan.

    Public Dataset Configuration

    Public Dataset

    Pilih dataset publik.

    Resource Configuration

    Resource Group Type

    Pilih public resource group, general computing resources, atau Lingjun resources.

    Job Resource

    Jika Resource Group Type adalah public resource group, sistem merekomendasikan resource berdasarkan spesifikasi model.

    Klik Submit untuk memulai tugas.

  4. Lihat hasil evaluasi.

    Hasil tugas tunggal

    Saat Status tugas evaluasi di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs berubah menjadi Succeeded, klik View Report di kolom Actions untuk melihat skor model pada berbagai ranah dan dataset di halaman Custom Dataset Evaluation Result.

    image

    Hasil perbandingan multi-tugas

    Di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs, pilih tugas evaluasi model untuk dibandingkan dan klik Compare untuk melihat hasil perbandingan di halaman Evaluation Results of Public Datasets.

    image

    Analisis hasil:

    • Grafik kiri menunjukkan skor model di berbagai domain. Setiap domain mungkin memiliki beberapa dataset terkait. Untuk dataset dalam domain yang sama, PAI menghitung rata-rata skor model sebagai skor domain.

    • Grafik kanan menunjukkan skor model pada setiap dataset publik. Untuk informasi lebih lanjut tentang cakupan evaluasi setiap dataset, lihat Dataset publik yang didukung.

    Hasil evaluasi akhir disimpan ke Output Path yang telah ditetapkan sebelumnya.

Referensi

Evaluasi model