Model Gallery mengintegrasikan berbagai model bahasa besar (LLM) yang telah dilatih sebelumnya. Topik ini menjelaskan cara menggunakan fitur evaluasi model untuk mengevaluasi kemampuan LLM dan mendapatkan LLM yang sesuai dengan kebutuhan bisnis Anda di halaman Model Gallery di Konsol Platform for AI (PAI).
Ikhtisar
Fitur evaluasi model memungkinkan Anda mengevaluasi LLM berdasarkan dataset kustom atau publik.
Evaluasi berbasis dataset kustom mencakup:
Evaluasi berbasis aturan menggunakan Recall-Oriented Understudy for Gisting Evaluation (ROUGE) dan Bilingual Evaluation Understudy (BLEU) untuk menghitung perbedaan antara hasil prediksi model dan hasil aktual.
Evaluasi berbasis model juri menggunakan model juri yang disediakan oleh PAI untuk memberi skor setiap pasangan pertanyaan-respons. Skor tersebut digunakan untuk menilai kinerja model.
Evaluasi berbasis dataset publik memuat beberapa dataset publik, melakukan prediksi model, dan menyediakan referensi evaluasi standar industri berdasarkan kerangka evaluasi spesifik untuk setiap dataset.
Evaluasi model mendukung semua model AutoModelForCausalLM di Hugging Face.
Fitur Terbaru:
Gunakan model juri berbasis Qwen2 untuk memberi skor respons model dalam skenario terbuka dan kompleks. Fitur ini gratis untuk periode terbatas. Anda dapat mencobanya di .
Skenario
Evaluasi model adalah bagian penting dari pengembangan model. Anda dapat menjelajahi aplikasi evaluasi model berdasarkan kebutuhan bisnis Anda. Berikut adalah beberapa skenario umum:
Pengujian benchmark model: Evaluasi kemampuan umum model berdasarkan dataset publik dan bandingkan hasil evaluasi dengan model industri atau benchmark.
Evaluasi kemampuan model di berbagai domain: Terapkan model ke domain yang berbeda dan bandingkan hasil pra-latihan dan fine-tuning model. Dengan cara ini, Anda dapat mengevaluasi kemampuan model untuk menerapkan pengetahuan spesifik domain.
Pengujian regresi model: Buat set pengujian regresi, evaluasi kinerja model dalam skenario bisnis aktual menggunakan fitur evaluasi model, dan periksa apakah model memenuhi standar penyebaran.
Prasyarat
Sebuah bucket Object Storage Service (OSS) telah dibuat. Untuk informasi lebih lanjut, lihat Mulai menggunakan konsol OSS.
Penagihan
Saat menggunakan fitur evaluasi model, Anda akan dikenakan biaya untuk penyimpanan OSS dan pekerjaan evaluasi Deep Learning Containers (DLC). Untuk informasi lebih lanjut, lihat Penagihan dan Penagihan DLC.
Persiapan Data
Fitur evaluasi model mendukung evaluasi model berdasarkan dataset kustom dan dataset publik seperti C-Eval.
Dataset Publik: Dataset publik diunggah dan dipelihara di PAI. Anda dapat langsung menggunakan dataset publik.
Dataset publik mencakup MMLU, TriviaQA, HellaSwag, GSM8K, C-Eval, dan TruthfulQA. Dataset publik lainnya akan diintegrasikan di masa mendatang.
Dataset Kustom: Jika ingin mengevaluasi model menggunakan file evaluasi kustom, unggah file dalam format JSONL ke OSS dan buat dataset kustom. Untuk informasi lebih lanjut, lihat Unggah objek dan Buat dan kelola dataset. Contoh kode berikut memberikan contoh format file.
Bidang
questiondigunakan untuk mengidentifikasi kolom pertanyaan, dan bidanganswerdigunakan untuk mengidentifikasi kolom jawaban. Anda juga dapat memilih kolom pada halaman evaluasi. Jika menggunakan model juri, kolom jawaban bersifat opsional.[{"question": "Apakah benar bahwa orang Tiongkok menemukan pembuatan kertas?", "answer": "Ya"}] [{"question": "Apakah benar bahwa orang Tiongkok menemukan mesiu?", "answer": "Ya"}]File contoh: eval.jsonl. Perhatikan bahwa file tersebut dalam bahasa Tiongkok.
Prosedur
Pilih model
Untuk menemukan model yang sesuai dengan bisnis Anda, lakukan langkah-langkah berikut:
Pergi ke halaman Model Gallery.
Masuk ke Konsol PAI.
Di panel navigasi di sebelah kiri, klik Workspaces. Di halaman Workspaces, temukan workspace yang ingin Anda kelola dan klik nama workspace tersebut. Halaman Workspace Details muncul.
Di panel navigasi di sebelah kiri, pilih untuk pergi ke halaman Model Gallery.
Temukan model yang sesuai dengan bisnis Anda.
Di halaman Model Gallery, klik model untuk pergi ke tab Overview halaman detail model.

Di tab Overview halaman detail model, klik Evaluate di pojok kanan atas. Tombol Evaluate hanya ditampilkan untuk model yang dapat dievaluasi.

Klik Job Management dan klik tugas pelatihan. Jika sebuah model dapat dievaluasi, model fine-tuned apa pun berdasarkan model tersebut juga dapat dievaluasi.

Evaluasi model
Anda dapat mengevaluasi model menggunakan mode sederhana dan mode profesional.
Mode Sederhana
Anda dapat memilih dataset publik atau kustom untuk menggunakan fitur evaluasi model. Jika ingin menggunakan model juri, beralihlah ke mode profesional.

Di halaman Create Evaluation Job, konfigurasikan parameter Job Name.
Konfigurasikan parameter Result Output Path. Pastikan direktori yang Anda pilih hanya digunakan oleh pekerjaan evaluasi saat ini. Jika tidak, hasil dari pekerjaan evaluasi yang berbeda akan saling menimpa.

Pilih dataset untuk evaluasi model. Anda dapat memilih dataset kustom atau dataset publik yang disediakan oleh PAI. Dataset kustom harus memenuhi persyaratan format yang dijelaskan di Persiapan Data.


Pilih sumber daya komputasi tipe instance GPU dan klik Submit di pojok kiri bawah. Kami merekomendasikan Anda memilih tipe instance GPU A10 atau V100. Tab Konfigurasi Pekerjaan halaman detail pekerjaan evaluasi muncul. Tunggu hingga pekerjaan diinisialisasi dan klik tab Laporan Evaluasi untuk melihat laporan evaluasi.

Mode Profesional
Anda dapat memilih dataset publik dan dataset kustom untuk evaluasi model. Anda dapat menentukan hyperparameter, menggunakan model juri, dan memilih beberapa dataset publik.

Klik Switch to Professional Mode.

Pilih dataset. Dalam mode profesional, Anda dapat memilih dataset publik dan dataset kustom.
Anda dapat memilih beberapa dataset publik.
Dataset kustom mendukung evaluasi model juri dan evaluasi metrik umum.
Anda dapat menentukan kolom pertanyaan dan jawaban untuk dataset kustom. Jika menggunakan model juri, kolom jawaban bersifat opsional.
Anda dapat menggunakan file data yang memenuhi persyaratan format di OSS.



Konfigurasikan hyperparameter model yang dievaluasi.

Di pojok kiri bawah, klik Submit. Tab Konfigurasi Pekerjaan halaman detail pekerjaan evaluasi muncul. Tunggu hingga pekerjaan diinisialisasi dan klik tab Laporan Evaluasi untuk melihat laporan evaluasi.

Lihat hasil evaluasi
Daftar pekerjaan evaluasi
Di halaman Model Gallery, klik Job Management di sebelah kotak pencarian.

Di halaman Job Management, klik tab Evaluasi Model.

Hasil evaluasi pekerjaan evaluasi tunggal
Dalam daftar pekerjaan di tab Evaluasi Model halaman Job Management, temukan pekerjaan evaluasi yang ingin Anda kelola dan klik Lihat Laporan di kolom Operasi. Di tab Laporan Evaluasi halaman detail pekerjaan evaluasi, lihat skor dataset kustom dan skor dataset publik.
Hasil evaluasi berbasis dataset kustom

Jika Anda memilih evaluasi metrik umum untuk pekerjaan evaluasi, grafik radar menampilkan skor model berdasarkan metrik ROUGE dan BLEU.
Metrik default untuk dataset kustom mencakup rouge-1-f, rouge-1-p, rouge-1-r, rouge-2-f, rouge-2-p, rouge-2-r, rouge-l-f, rouge-l-p, rouge-l-r, bleu-1, bleu-2, bleu-3, dan bleu-4.
Metrik ROUGE:
Metrik rouge-n digunakan untuk menghitung overlap N-gram. N menunjukkan jumlah kata berturutan. rouge-1 dan rouge-2 adalah yang paling umum digunakan. rouge-1 sesuai dengan unigram, dan rouge-2 sesuai dengan bigram.
rouge-1-p (Presisi): proporsi unigram dalam ringkasan sistem terhadap unigram dalam ringkasan referensi.
rouge-1-r (Recall): proporsi unigram dalam ringkasan referensi yang muncul dalam ringkasan sistem.
rouge-1-f (F-score): rata-rata harmonik presisi dan recall.
rouge-2-p (Presisi): proporsi bigram dalam ringkasan sistem terhadap bigram dalam ringkasan referensi.
rouge-2-r (Recall): proporsi bigram dalam ringkasan referensi yang muncul dalam ringkasan sistem.
rouge-2-f (F-score): rata-rata harmonik presisi dan recall.
Metrik rouge-l didasarkan pada subsequence umum terpanjang (LCS).
rouge-l-p (Presisi): presisi dari kesesuaian antara ringkasan sistem berbasis LCS dan ringkasan referensi berbasis LCS.
rouge-l-r (Recall): recall dari kesesuaian antara ringkasan sistem berbasis LCS dan ringkasan referensi berbasis LCS.
rouge-l-f (F-score): F-score dari kesesuaian antara ringkasan sistem berbasis LCS dan ringkasan referensi berbasis LCS.
Metrik BLEU:
BLEU adalah pengukuran populer yang digunakan untuk mengevaluasi kualitas terjemahan mesin. BLEU dinilai dengan menghitung overlap N-gram antara terjemahan mesin dan terjemahan referensi.
bleu-1: kecocokan unigram.
bleu-2: kecocokan bigram.
bleu-3: kecocokan trigram (tiga kata berturutan).
bleu-4: kecocokan 4-gram.
Jika Anda menggunakan model juri untuk tugas evaluasi, metrik skor model juri ditampilkan melalui daftar.
Model juri dilatih ulang berdasarkan Qwen2, bekerja setara dengan GPT-4 pada dataset sumber terbuka seperti Alighbench, dan mencapai hasil evaluasi yang unggul dalam beberapa skenario.
Halaman menampilkan empat indikator statistik untuk skor yang diberikan oleh model juri untuk model yang dievaluasi:
Rata-rata: Rata-rata skor yang diberikan oleh model juri untuk hasil yang dihasilkan (tidak termasuk skor tidak valid), dengan nilai minimum 1 dan maksimum 5. Semakin tinggi rata-rata, semakin baik respons model.
Median: Median skor yang diberikan oleh model juri untuk hasil yang dihasilkan (tidak termasuk skor tidak valid), dengan nilai minimum 1 dan maksimum 5. Semakin tinggi median, semakin baik respons model.
Standar Deviasi: Standar deviasi skor yang diberikan oleh model juri untuk hasil yang dihasilkan (tidak termasuk skor tidak valid). Saat rata-rata dan median sama, standar deviasi yang lebih kecil menunjukkan performa model yang lebih baik.
Kemiringan: Kemiringan distribusi skor (tidak termasuk skor tidak valid). Kemiringan positif menunjukkan ekor yang lebih panjang di sisi kanan (rentang skor lebihtinggi), sedangkan kemiringan negatif menunjukkan ekor yang lebih panjang di sisi kiri (rentang skor lebih rendah).
Selain itu, bagian bawah halaman menampilkan hasil evaluasi rinci untuk setiap entri data dalam dataset evaluasi.
Hasil evaluasi berbasis dataset publik
Jika Anda memilih dataset publik untuk evaluasi model, grafik radar menampilkan skor model pada dataset publik.

Grafik radar di sebelah kiri menampilkan skor model di domain yang berbeda. Setiap domain mungkin memiliki beberapa dataset. Untuk dataset yang termasuk dalam domain yang sama, rata-rata skor evaluasi digunakan sebagai skor model dalam domain tersebut.
Grafik radar di sebelah kanan menampilkan skor model di setiap dataset publik. Untuk informasi lebih lanjut tentang ruang lingkup evaluasi setiap dataset publik, lihat pengenalan resmi dataset tersebut.
Perbandingan hasil evaluasi untuk beberapa model
Jika ingin membandingkan hasil evaluasi beberapa model, tampilkan hasil evaluasi model di halaman yang sama untuk memudahkan perbandingan. Dalam daftar pekerjaan evaluasi di tab Evaluasi Model halaman Job Management, pilih pekerjaan evaluasi yang ingin Anda kelola dan klik Bandingkan.

Hasil perbandingan model berbasis dataset kustom

Hasil perbandingan model berbasis dataset publik

Analisis Hasil
Hasil evaluasi model mencakup hasil berbasis dataset kustom dan hasil berbasis dataset publik.
Hasil evaluasi berbasis dataset kustom:
Gunakan metode pencocokan teks standar di domain Natural Language Processing (NLP) untuk menghitung skor pencocokan antara ground truth dan output model. Semakin tinggi skor, semakin baik model.
Gunakan model juri untuk mengevaluasi output model yang dinilai dapat memanfaatkan keunggulan LLM, memungkinkan evaluasi semantik yang lebih akurat terhadap kualitas output model. Semakin tinggi rata-rata dan median, dan semakin kecil standar deviasi, semakin baik performa model.
Metode evaluasi ini membantu mengevaluasi apakah model cocok untuk skenario bisnis Anda berdasarkan data spesifik skenario Anda.
Hasil evaluasi berbasis dataset publik: Gunakan dataset sumber terbuka di berbagai domain untuk mengevaluasi kemampuan komprehensif LLM, seperti kemampuan matematika dan kemampuan kode. Semakin tinggi skor, semakin baik model. Metode evaluasi ini adalah metode yang paling umum digunakan untuk evaluasi LLM. PAI secara bertahap mengintegrasikan lebih banyak dataset publik berdasarkan ritme industri.
Referensi
Selain konsol, Anda dapat menggunakan PAI SDK untuk Python untuk mengevaluasi model. Untuk informasi lebih lanjut, lihat NoteBook berikut: