Evaluasi performa LLM dengan membandingkan model dasar, versi fine-tuned, dan versi terkuantisasi menggunakan dataset kustom atau publik berdasarkan metrik otomatis.
Latar Belakang
Pendahuluan
Seiring kemajuan LLM, evaluasi yang ilmiah dan efisien semakin penting untuk mengukur serta membandingkan performa model. Evaluasi ini membimbing pemilihan dan optimalisasi model, mempercepat inovasi dan penerapan AI.
PAI menyediakan praktik terbaik untuk evaluasi LLM guna membantu pengembang AI membangun proses evaluasi yang mencerminkan performa model sebenarnya dan memenuhi kebutuhan industri spesifik. Topik yang dibahas meliputi:
-
Menyiapkan dan memilih dataset evaluasi
-
Memilih model open source atau hasil fine-tuning
-
Membuat tugas evaluasi dan memilih metode evaluasi
-
Menginterpretasikan hasil tugas dalam skenario satu tugas atau multi-tugas
Fitur platform
Evaluasi LLM PAI membandingkan performa model di berbagai skenario:
-
Membandingkan model dasar: Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
-
Membandingkan versi fine-tuned dari model yang sama (misalnya, versi epoch berbeda dari Qwen2-7B-Instruct yang dilatih pada data privat)
-
Membandingkan versi terkuantisasi: Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8
PAI menjawab kebutuhan pengembang enterprise dan peneliti algoritma dengan menggabungkan dataset kustom dan dataset publik (MMLU, C-Eval) untuk evaluasi model yang komprehensif, akurat, dan terarah. Fitur-fiturnya meliputi:
-
Pipa evaluasi end-to-end tanpa perlu pengembangan kode. Mendukung LLM open source utama dan evaluasi satu klik setelah fine-tuning.
-
Unggah dataset kustom. Lebih dari 10 metode evaluasi NLP bawaan dengan tampilan hasil terkonsolidasi.
-
Evaluasi pada dataset publik dari berbagai domain. Mereproduksi sepenuhnya metode evaluasi resmi dengan tampilan grafik radar panorama.
-
Evaluasi simultan beberapa model dan tugas dengan grafik perbandingan serta hasil detail per item.
-
Evaluasi transparan dan dapat direproduksi. Kode evaluasi bersifat open source di repositori eval-scope, yang dikembangkan bersama ModelScope.
Penagihan
-
Evaluasi LLM mengandalkan PAI QuickStart (gratis). Tugas evaluasi mungkin dikenai biaya DLC. Untuk informasi lebih lanjut, lihat Penagihan Deep Learning Containers (DLC).
-
Evaluasi dataset kustom dikenai biaya OSS. Untuk informasi lebih lanjut, lihat Ikhtisar penagihan OSS.
Skenario 1: Evaluasi dataset kustom untuk pengembang enterprise
Enterprise sering kali mengumpulkan banyak data privat. Bagian penting dalam memanfaatkan LLM untuk optimalisasi algoritma adalah memanfaatkan data ini. Pengembang enterprise mengevaluasi LLM open source atau hasil fine-tuning menggunakan dataset kustom dari data privat untuk lebih memahami performa model dalam domain tertentu.
Untuk evaluasi dataset kustom, PAI menggunakan metode pencocokan teks standar dari NLP untuk menghitung kemiripan antara output model dan ground truth. Nilai yang lebih tinggi menunjukkan model yang lebih baik.
Langkah-langkah proses utama (untuk detail, lihat Evaluasi model):
-
Siapkan set evaluasi kustom.
-
Format:
Siapkan file set evaluasi dalam format JSONL. Contoh: llmuses_general_qa_test.jsonl (76 KB):
[{"question": "Is it true that China invented papermaking?", "answer": "True"}] [{"question": "Is it true that China invented gunpowder?", "answer": "True"}]Gunakan
questionuntuk mengidentifikasi kolom pertanyaan danansweruntuk mengidentifikasi kolom jawaban. -
Unggah file set evaluasi ke OSS. Untuk informasi lebih lanjut, lihat Unggah file ke OSS.
-
Buat dataset dari file OSS. Untuk informasi lebih lanjut, lihat Buat dataset dari produk Alibaba Cloud.
-
-
Pilih model.
Gunakan model open source
Di Konsol PAI, buka Quick Start > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate untuk model yang didukung.

Gunakan model hasil fine-tuning
Di Konsol PAI, buka Quick Start > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate. Setelah fine-tuning, buka Quick Start > Model Gallery > Job Management > Training Jobs. Klik pekerjaan pelatihan yang telah selesai untuk menampilkan tombol Evaluate.

Evaluasi model saat ini mendukung semua model jenis AutoModelForCausalLM dari Hugging Face.
-
Buat dan jalankan tugas evaluasi.
Klik Evaluate di halaman detail model untuk membuat tugas evaluasi.

Parameter utama:
Parameter
Deskripsi
Base configuration
Result Output Path
Jalur OSS tempat hasil evaluasi disimpan.
Custom Dataset Configuration
Evaluation Method
Opsi:
-
General Metric Evaluation: Menghitung kemiripan teks antara prediksi model dan jawaban referensi (ROUGE, BLEU). Cocok untuk jawaban definitif.
-
Judge Model Evaluation: Menggunakan model LLM-as-a-Judge untuk memberi skor jawaban secara otomatis. Tidak memerlukan jawaban referensi. Cocok untuk jawaban kompleks atau tidak unik. Hasil mencakup skor keseluruhan dan 5 metrik spesifik.
LLM-as-a-Judge Service Token
Diperlukan ketika Metode Evaluasi adalah LLM-as-a-Judge Evaluation. Dapatkan token dari halaman LLM-as-a-Judge.
Dataset Source
Pilih dataset yang sudah ada.
Select an existing dataset.
Pilih dataset kustom yang telah dibuat sebelumnya.
Resource Configuration
Resource Group Type
Pilih kelompok sumber daya publik, sumber daya komputasi umum, atau sumber daya komputasi cerdas Lingjun.
Job Resource
Jika Jenis Kelompok Sumber Daya adalah kelompok sumber daya publik, sistem merekomendasikan sumber daya berdasarkan spesifikasi model.
Klik Submit untuk memulai tugas.
-
-
Lihat hasil evaluasi.
Hasil tugas tunggal
Saat Status tugas evaluasi di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs berubah menjadi Succeeded, klik Actions > View Report untuk melihat skor ROUGE dan BLEU di halaman Custom Dataset Evaluation Result.

Halaman ini juga menampilkan hasil evaluasi detail untuk setiap entri data.
Hasil perbandingan multi-tugas
Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, pilih tugas evaluasi model untuk dibandingkan. Klik Compare untuk melihat hasil perbandingan di halaman Custom Dataset Evaluation Result.

Analisis hasil:
Metode evaluasi default untuk dataset kustom: rouge-1-f, rouge-1-p, rouge-1-r, rouge-2-f, rouge-2-p, rouge-2-r, rouge-l-f, rouge-l-p, rouge-l-r, bleu-1, bleu-2, bleu-3, dan bleu-4.
-
Metrik ROUGE-n menghitung tumpang tindih N-gram (N kata berurutan). ROUGE-1 dan ROUGE-2 paling umum digunakan, masing-masing merujuk pada unigram dan bigram. ROUGE-L berbasis Longest Common Subsequence (LCS).
-
BLEU (Bilingual Evaluation Understudy) mengevaluasi kualitas penerjemahan mesin dengan mengukur tumpang tindih N-gram antara output penerjemahan mesin dan terjemahan referensi. BLEU-n menghitung laju kecocokan N-gram.
Hasil evaluasi akhir disimpan ke Output Path yang telah ditetapkan sebelumnya.
-
Skenario 2: Evaluasi dataset publik untuk peneliti algoritma
Penelitian algoritma sering kali mengandalkan dataset publik. Saat peneliti memilih model open source atau melakukan fine-tune model, mereka merujuk pada performa evaluasi pada dataset publik otoritatif. PAI menyediakan akses ke dataset publik dari berbagai domain dan mereproduksi sepenuhnya metrik evaluasi resmi untuk memperoleh umpan balik performa yang akurat, memfasilitasi penelitian LLM yang efisien.
Evaluasi dataset publik menilai kemampuan LLM secara komprehensif (matematika, pengetahuan, penalaran) dengan mengklasifikasikan dataset evaluasi open source berdasarkan domain. Nilai yang lebih tinggi menunjukkan model yang lebih baik.
Langkah-langkah proses utama (untuk detail, lihat Evaluasi model):
-
Dataset publik yang didukung:
PAI saat ini menyediakan dataset publik termasuk MMLU, TriviaQA, HellaSwag, GSM8K, C-Eval, CMMLU, dan TruthfulQA. Dataset tambahan sedang ditambahkan.
Dataset
Ukuran
Volume data
Domain
166 MB
14042
Pengetahuan
14,3 MB
17944
Pengetahuan
1,55 MB
12342
Bahasa Tionghoa
1,08 MB
11582
Bahasa Tionghoa
4,17 MB
1319
Matematika
47,5 MB
10042
Penalaran
0,284 MB
816
Keamanan
-
Pilih model.
Gunakan model open source
Di Konsol PAI, buka QuickStart > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate untuk model yang didukung.

Gunakan model hasil fine-tuning
Di Konsol PAI, buka QuickStart > Model Gallery. Arahkan kursor ke kartu model untuk menampilkan tombol Evaluate. Setelah melakukan fine-tuning pada model yang dapat dievaluasi, buka QuickStart > Model Gallery > Job Management > Training Jobs. Klik pekerjaan pelatihan yang berhasil untuk menampilkan tombol Evaluate.

Evaluasi model saat ini mendukung semua model jenis AutoModelForCausalLM dari Hugging Face.
-
Buat dan jalankan tugas evaluasi.
Klik Evaluate di halaman detail model untuk membuat tugas evaluasi.

Parameter
Description
Base configuration
Result Output Path
Jalur OSS tempat hasil evaluasi disimpan.
Public Dataset Configuration
Public Dataset
Pilih dataset publik.
Resource Configuration
Resource Group Type
Pilih public resource group, general computing resources, atau Lingjun resources.
Job Resource
Jika Resource Group Type adalah public resource group, sistem merekomendasikan resource berdasarkan spesifikasi model.
Klik Submit untuk memulai tugas.
-
Lihat hasil evaluasi.
Hasil tugas tunggal
Saat Status tugas evaluasi di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs berubah menjadi Succeeded, klik View Report di kolom Actions untuk melihat skor model pada berbagai ranah dan dataset di halaman Custom Dataset Evaluation Result.

Hasil perbandingan multi-tugas
Di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs, pilih tugas evaluasi model untuk dibandingkan dan klik Compare untuk melihat hasil perbandingan di halaman Evaluation Results of Public Datasets.

Analisis hasil:
-
Grafik kiri menunjukkan skor model di berbagai domain. Setiap domain mungkin memiliki beberapa dataset terkait. Untuk dataset dalam domain yang sama, PAI menghitung rata-rata skor model sebagai skor domain.
-
Grafik kanan menunjukkan skor model pada setiap dataset publik. Untuk informasi lebih lanjut tentang cakupan evaluasi setiap dataset, lihat Dataset publik yang didukung.
Hasil evaluasi akhir disimpan ke Output Path yang telah ditetapkan sebelumnya.
-