Evaluasi Large Language Models (LLM) sangat penting untuk mengukur performa, memilih model yang tepat, dan mengoptimalkannya guna mempercepat inovasi serta penerapan AI. Platform evaluasi model PAI mendukung berbagai skenario evaluasi seperti membandingkan model dasar, versi fine-tuned, dan versi kuantisasi. Dokumen ini memberikan panduan tentang cara melakukan evaluasi model secara komprehensif dan terarah untuk kelompok pengguna dan jenis dataset yang berbeda demi mencapai hasil optimal di bidang AI.
Informasi latar belakang
Pendahuluan
Seiring dengan semakin canggihnya LLM, kebutuhan akan evaluasi model yang ketat menjadi lebih besar dari sebelumnya. Proses evaluasi yang ilmiah dan efisien tidak hanya membantu pengembang mengukur dan membandingkan performa model tetapi juga membimbing mereka dalam pemilihan dan optimasi model, mempercepat adopsi inovasi AI. Oleh karena itu, seperangkat praktik terbaik berbasis platform untuk evaluasi LLM menjadi esensial.
Dokumen ini menyajikan praktik terbaik untuk menggunakan layanan evaluasi model Platform for AI (PAI). Panduan ini membantu Anda membangun proses evaluasi yang komprehensif, mencerminkan performa sebenarnya dari model, dan memenuhi kebutuhan industri spesifik Anda, sehingga membantu Anda unggul dalam artificial intelligence. Praktik terbaik ini mencakup topik-topik berikut:
Cara menyiapkan dan memilih dataset evaluasi.
Cara memilih model sumber terbuka atau fine-tuned yang sesuai dengan kebutuhan bisnis Anda.
Cara membuat pekerjaan evaluasi dan memilih metrik evaluasi yang sesuai.
Cara menafsirkan hasil evaluasi untuk skenario pekerjaan tunggal dan multi-pekerjaan.
Fitur Platform
Platform evaluasi model PAI membantu Anda membandingkan performa model di berbagai skenario evaluasi. Contohnya:
Membandingkan model dasar yang berbeda, seperti Qwen2-7B-Instruct vs. Baichuan2-7B-Chat.
Membandingkan versi fine-tuned yang berbeda dari model yang sama, seperti performa versi epoch yang berbeda dari Qwen2-7B-Instruct yang dilatih pada data pribadi Anda.
Membandingkan versi kuantisasi yang berbeda dari model yang sama, seperti Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8.
Panduan ini menggunakan pengembang perusahaan dan peneliti algoritma sebagai contoh untuk memenuhi kebutuhan kelompok pengguna yang berbeda. Ini menjelaskan bagaimana menggabungkan dataset kustom Anda sendiri dengan dataset publik umum (seperti MMLU atau C-Eval) untuk mencapai evaluasi model yang lebih komprehensif, akurat, dan terarah. Pendekatan ini membantu Anda menemukan LLM terbaik untuk bisnis Anda. Fitur utama dari praktik ini adalah:
Menyediakan alur kerja evaluasi tanpa kode ujung-ke-ujung. Mendukung LLM sumber terbuka utama dan evaluasi satu klik untuk model fine-tuned.
Mengizinkan Anda mengunggah dataset kustom. Termasuk lebih dari 10 metrik Natural Language Processing (NLP) bawaan umum dan menampilkan hasil dalam tampilan gaya dasbor, menghilangkan kebutuhan untuk mengembangkan skrip evaluasi.
Mendukung evaluasi pada dataset publik populer di berbagai domain. Sepenuhnya mereplikasi metode evaluasi resmi dan menyajikan pandangan holistik dengan grafik radar, menghilangkan kebutuhan untuk mengunduh dataset dan mempelajari prosedur evaluasi terpisah.
Mendukung evaluasi simultan dari beberapa model dan pekerjaan. Menampilkan hasil perbandingan dalam grafik dan memberikan hasil rinci untuk setiap sampel, memungkinkan analisis komprehensif.
Memastikan proses evaluasi yang transparan dan dapat direproduksi. Kode evaluasi bersifat open-source dan tersedia di repositori eval-scope, dikembangkan bersama dengan ModelScope, memungkinkan Anda meninjau detail dan mereproduksi hasil.
Penagihan
Layanan evaluasi model PAI dibangun di atas PAI-QuickStart. QuickStart gratis, tetapi menjalankan evaluasi model mungkin mengakibatkan biaya untuk pekerjaan Distributed Training (DLC). Untuk informasi lebih lanjut tentang penagihan, lihat Penagihan Deep Learning Containers (DLC).
Jika Anda mengevaluasi model dengan dataset kustom yang disimpan di Object Storage Service (OSS), penggunaan OSS akan dikenakan biaya tambahan. Untuk informasi lebih lanjut tentang penagihan, lihat Ikhtisar Penagihan OSS.
Kasus Penggunaan 1: Evaluasi model dengan dataset kustom untuk pengembang perusahaan
Perusahaan sering memiliki data pribadi yang luas dan spesifik domain. Memanfaatkan data ini adalah kunci untuk mengoptimalkan algoritma dengan LLM. Oleh karena itu, ketika pengembang perusahaan mengevaluasi model LLM sumber terbuka atau fine-tuned, mereka sering menggunakan dataset kustom dari data pribadi mereka untuk lebih memahami performa model dalam konteks tertentu tersebut.
Untuk evaluasi dengan dataset kustom, platform evaluasi model PAI menggunakan metode pencocokan teks NLP standar untuk menghitung kesamaan antara output model dan jawaban ground-truth. Skor yang lebih tinggi menunjukkan model yang lebih baik. Metode ini memungkinkan Anda menggunakan data unik dan spesifik skenario untuk menentukan apakah model sesuai dengan kebutuhan Anda.
Langkah-langkah berikut menyoroti poin-poin utama dari proses ini. Untuk instruksi terperinci, lihat Evaluasi Model.
Siapkan dataset kustom.
Format dataset kustom:
Untuk menjalankan evaluasi dataset kustom, siapkan data Anda dalam format JSONL. Untuk file contoh, lihat llmuses_general_qa_test.jsonl (76 KB). Formatnya adalah sebagai berikut:
[{"question": "Apakah benar bahwa Cina menemukan pembuatan kertas?", "answer": "Benar"}] [{"question": "Apakah benar bahwa Cina menemukan bubuk mesiu?", "answer": "Benar"}]Gunakan
questionuntuk mengidentifikasi kolom pertanyaan danansweruntuk mengidentifikasi kolom jawaban.Unggah file dataset yang diformat ke OSS. Untuk informasi lebih lanjut, lihat Unggah File ke OSS.
Buat dataset dari file di OSS. Untuk informasi lebih lanjut, lihat Buat Dataset: Dari Layanan Alibaba Cloud.
Pilih model untuk kasus penggunaan Anda.
Gunakan model sumber terbuka
Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Jika model mendukung evaluasi, tombol Evaluate akan muncul.

Gunakan model fine-tuned
Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Tombol Evaluation akan muncul pada model yang dapat dievaluasi. Fine-tune model yang dapat dievaluasi. Kemudian, di halaman QuickStart > Model Gallery > Job Management > Training Jobs, klik pekerjaan pelatihan yang berhasil. Tombol Evaluate akan muncul di sudut kanan atas.

Evaluasi model saat ini mendukung semua model AutoModelForCausalLM dari Hugging Face.
Buat dan jalankan Pekerjaan Evaluasi.
Di halaman produk model, klik Evaluate di sudut kanan atas untuk membuat pekerjaan evaluasi.

Konfigurasikan parameter utama sebagai berikut:
Parameter
Deskripsi
Konfigurasi Dasar
Jalur Output Hasil
Tentukan path OSS tempat hasil evaluasi akhir akan disimpan.
Konfigurasi Dataset Kustom
Metode Evaluasi
Pilih salah satu opsi berikut:
Evaluasi Metrik Umum: Menghitung kesamaan teks antara output model dan jawaban referensi menggunakan metrik seperti ROUGE dan BLEU. Cocok untuk skenario dengan jawaban pasti.
Evaluasi Model Juri: Menggunakan model juri yang disediakan oleh PAI untuk memberi skor jawaban secara otomatis. Metode ini tidak memerlukan jawaban referensi dan cocok untuk skenario dengan jawaban kompleks atau tidak unik. Hasilnya mencakup skor keseluruhan dan lima sub-skor.
Token Layanan Penilaian Model
Saat memilih Evaluasi Model Juri sebagai metode evaluasi, konfigurasikan parameter ini. Anda bisa mendapatkan token dari halaman Model Juri.
Sumber Dataset
Pilih dataset yang ada.
Buat dataset yang disimpan di penyimpanan Alibaba Cloud
Pilih dataset kustom yang telah Anda buat sebelumnya.
Konfigurasi Sumber Daya
Jenis Kelompok Sumber Daya
Pilih kelompok sumber daya publik, komputasi tujuan umum, atau Sumber daya Lingjun berdasarkan kebutuhan Anda.
Sumber Daya Pekerjaan
Jika Anda memilih kelompok sumber daya publik, spesifikasi sumber daya yang sesuai direkomendasikan secara default berdasarkan ukuran model Anda.
Klik Submit untuk memulai pekerjaan.
Lihat hasil evaluasi.
Hasil pekerjaan tunggal
Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, ketika Status pekerjaan evaluasi adalah Succeeded, klik View Report di kolom Operation. Di halaman Custom Dataset Evaluation Results, Anda dapat melihat skor model untuk metrik ROUGE dan BLEU.

Laporan ini juga memberikan hasil evaluasi rinci untuk setiap entri data dalam file evaluasi.
Hasil perbandingan multi-pekerjaan
Di halaman QuickStart > Model Gallery > Job Management > Evaluation Job, pilih pekerjaan evaluasi model yang ingin Anda bandingkan dan klik Compare di sudut kanan atas. Di halaman Custom Dataset Evaluation Results, Anda dapat melihat hasil perbandingan.

Menafsirkan hasil evaluasi:
Metrik evaluasi default untuk dataset kustom meliputi: rouge-1-f, rouge-1-p, rouge-1-r, rouge-2-f, rouge-2-p, rouge-2-r, rouge-l-f, rouge-l-p, rouge-l-r, bleu-1, bleu-2, bleu-3, dan bleu-4.
Metrik rouge-n menghitung tumpang tindih N-gram (N kata berturut-turut). Rouge-1 dan rouge-2 adalah yang paling umum digunakan, masing-masing sesuai dengan unigram dan bigram. Metrik rouge-l didasarkan pada Longest Common Subsequence (LCS).
BLEU (Bilingual Evaluation Understudy) adalah metrik populer lainnya untuk mengevaluasi kualitas terjemahan mesin. Ini menghitung skor dengan mengukur tumpang tindih N-gram antara output terjemahan mesin dan satu set terjemahan referensi. Metrik bleu-n menghitung kesamaan N-gram.
Hasil evaluasi akhir disimpan ke Path Output Hasil yang Anda tentukan.
Kasus Penggunaan 2: Evaluasi model dengan dataset publik untuk peneliti algoritma
Penelitian algoritma sering bergantung pada dataset publik. Ketika peneliti memilih model sumber terbuka atau fine-tune sebuah model, mereka merujuk pada performanya pada benchmark publik yang otoritatif. Namun, karena banyaknya dataset publik untuk LLM, peneliti sering menghabiskan waktu signifikan memilih dataset yang relevan untuk domain mereka dan mempelajari prosedur evaluasi yang sesuai. Untuk menyederhanakan ini, PAI mengintegrasikan beberapa dataset publik dan sepenuhnya mereplikasi metrik evaluasi resmi untuk masing-masing. Ini memberikan umpan balik akurat tentang performa model dan membantu mempercepat penelitian LLM.
Untuk evaluasi dengan dataset publik, platform evaluasi model PAI mengkategorikan dataset sumber terbuka berdasarkan domain untuk menilai kemampuan komprehensif LLM, seperti matematika, pengetahuan, dan penalaran. Skor yang lebih tinggi menunjukkan model yang lebih baik. Ini adalah metode yang paling umum untuk mengevaluasi LLM.
Langkah-langkah berikut menyoroti poin-poin utama dari proses ini. Untuk instruksi terperinci, lihat Evaluasi Model.
Dataset publik yang didukung:
PAI saat ini memelihara dataset publik termasuk MMLU, TriviaQA, HellaSwag, GSM8K, C-Eval, CMMLU, dan TruthfulQA. Lebih banyak dataset publik sedang ditambahkan.
Dataset
Ukuran
Volume Data
Ranah
166 MB
14042
Pengetahuan
14.3 MB
17944
Pengetahuan
1.55 MB
12342
Bahasa Tiongkok
1.08 MB
11582
Bahasa Tiongkok
4.17 MB
1319
Matematika
47.5 MB
10042
Penalaran
0.284 MB
816
Keamanan
Pilih model yang sesuai untuk kasus penggunaan Anda.
Gunakan model sumber terbuka
Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Jika model mendukung evaluasi, tombol Evaluate akan muncul.

Gunakan model fine-tuned
Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Tombol Evaluation ditampilkan untuk model yang dapat dievaluasi. Setelah Anda Fine-tune model yang dapat dievaluasi, buka halaman QuickStart > Model Gallery > Job Management > Training Job dan klik pekerjaan pelatihan yang berhasil. Tombol Evaluation kemudian ditampilkan di sudut kanan atas.

Evaluasi model saat ini mendukung semua model AutoModelForCausalLM dari Hugging Face.
Buat dan jalankan Pekerjaan Evaluasi.
Di halaman detail model, klik Evaluation di sudut kanan atas untuk membuat pekerjaan evaluasi.

Parameter
Deskripsi
Konfigurasi Dasar
Path Output Hasil
Tentukan path OSS tempat hasil evaluasi akhir akan disimpan.
Konfigurasi Dataset Publik
Dataset Publik
Pilih dataset publik.
Konfigurasi Sumber Daya
Jenis Kelompok Sumber Daya
Pilih kelompok sumber daya publik, komputasi tujuan umum, atau Sumber daya Lingjun berdasarkan kebutuhan Anda.
Sumber Daya Pekerjaan
Jika Anda memilih kelompok sumber daya publik, spesifikasi sumber daya yang sesuai direkomendasikan secara default berdasarkan ukuran model Anda.
Klik Submit untuk memulai pekerjaan.
Lihat hasil evaluasi.
Hasil Pekerjaan Tunggal
Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, ketika Status pekerjaan evaluasi adalah Succeeded, klik View Report di kolom Operation. Di halaman Public Dataset Evaluation Results, Anda dapat melihat skor model di berbagai ranah dan dataset.

Hasil perbandingan multi-pekerjaan
Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, pilih pekerjaan evaluasi model yang ingin Anda bandingkan dan klik Compare di sudut kanan atas. Di halaman Public Dataset Evaluation Results, Anda dapat melihat hasil perbandingan.

Analisis hasil evaluasi:
Grafik di sebelah kiri menunjukkan skor model di berbagai domain kemampuan. Domain kemampuan tunggal mungkin mencakup beberapa dataset. Untuk menghitung skor domain akhir, platform evaluasi model PAI merata-ratakan skor model dari semua dataset dalam domain tersebut.
Grafik di sebelah kanan menunjukkan skor model pada dataset publik individu. Untuk informasi tentang ruang lingkup evaluasi setiap dataset publik, lihat Deskripsi Dataset Publik yang Didukung.
Hasil evaluasi akhir disimpan ke Path Output Hasil yang Anda tentukan.