Evaluasi Model (ModelEval) menyediakan alat di platform PAI untuk menilai performa Large Language Models (LLMs) secara sistematis, baik pada tugas umum maupun tugas spesifik domain. Anda dapat menggunakan dataset publik yang otoritatif atau dataset kustom Anda sendiri guna membandingkan kemampuan model, sehingga membantu pengambilan keputusan berbasis data terkait pemilihan model, fine-tuning, dan pembaruan versi.
Mulai cepat: Jalankan evaluasi model pertama Anda dalam 5 menit
Bagian ini menjelaskan cara menjalankan tugas evaluasi sederhana dengan konfigurasi minimal: mengevaluasi model Qwen3-4B pada dataset publik CMMLU.
Masuk ke Konsol PAI. Di panel navigasi kiri, pilih Model Application > Model Evaluation (ModelEval).
Pada halaman Model Evaluation (ModelEval), klik Create Task.
Basic Configuration: Job Name dan Result Output Path dihasilkan secara default oleh sistem.
CatatanJika Workspace Anda belum memiliki path penyimpanan OSS default yang dikonfigurasi, Anda harus menentukan Result Output Path secara manual.
Konfigurasi pola evaluasi: Pilih Single-model evaluation.
Konfigurasi Objek Evaluasi:
Untuk Evaluation Object Type, pilih Public Model.
Untuk Public Model, cari dan pilih
Qwen3-4B.
Konfigurasi Metode Evaluasi:
Pilih Public Dataset Evaluation.
Dari daftar dataset, pilih CMMLU.
Konfigurasi Sumber Daya:
Atur Resource Group Type menjadi Public Resource Group (Pay-As-You-Go) dan Resource Configuration Method menjadi General Resource.
Dari daftar drop-down Resource Specification, pilih spesifikasi GPU, misalnya
ecs.gn7i-c8g1.2xlarge(24 GB).
Kirim tugas: Klik OK di bagian bawah halaman.
Setelah mengirim tugas, halaman akan otomatis dialihkan ke detail tugas. Tunggu hingga status tugas berubah menjadi Succeeded. Anda kemudian dapat melihat performa model Qwen3-4B pada dataset CMMLU di tab Evaluation Report.
Fitur
Konfigurasi objek evaluasi
Evaluasi Model mendukung empat jenis objek evaluasi. Pilih jenis berdasarkan cara model atau layanan Anda dideploy.
Evaluation object type | Description | Scenarios |
Public model | Model dari PAI Model Gallery. | Menilai performa LLM open-source populer secara cepat. |
Custom model | Model kustom yang telah Anda daftarkan di Penting Pastikan framework vLLM kompatibel dengan model tersebut. | Menilai model yang telah melalui fine-tuning atau dikustomisasi. |
PAI-EAS service | Layanan Inferensi Online PAI-EAS yang telah dideploy. | Menilai layanan model di lingkungan produksi. |
Custom service | Setiap layanan model yang mematuhi spesifikasi API OpenAI. | Menilai layanan model pihak ketiga atau self-hosted. |
Konfigurasi metode evaluasi
Anda dapat memilih untuk menggunakan dataset kustom, dataset publik, atau kombinasi keduanya untuk evaluasi.
Evaluasi dataset kustom
Nilai model menggunakan dataset Anda sendiri agar mencerminkan skenario bisnis dunia nyata secara akurat.
Format dataset: Harus dalam format JSON Lines (JSONL), dengan satu objek JSON ber-encoding UTF-8 per baris.
Unggah dataset: Unggah file dataset Anda ke OSS dan berikan path OSS-nya pada halaman konfigurasi.
Evaluation method | General metric evaluation | Judge model evaluation |
Use cases | Metode ini digunakan ketika Anda memiliki jawaban referensi yang jelas. Metode ini menghitung kesamaan teks antara output model dan jawaban referensi. Cocok untuk tugas seperti translation, summarization, dan Knowledge Base Q&A. | Metode ini digunakan ketika tidak ada satu jawaban benar, seperti dalam percakapan terbuka atau pembuatan konten. Metode ini menggunakan Judge Model yang kuat untuk memberi skor kualitas respons model. |
Format dataset | Objek JSON harus berisi field | Objek JSON dapat hanya berisi field |
Core metrics |
| Sistem mengirimkan |
Evaluasi dataset publik
Nilai model Anda menggunakan dataset otoritatif yang diakui industri untuk membandingkan kemampuannya terhadap tolok ukur industri.
Use cases: Membandingkan model untuk pemilihan model, melakukan benchmarking pra-rilis, dan menilai kemampuan umum model.
Konfigurasi: Pilih Public Dataset Evaluation dan pilih satu atau beberapa dataset dari daftar.
Dataset yang didukung:
LiveCodeBench: Menilai pemahaman dan generasi kode.
Math500: Menilai penalaran matematika dengan 500 soal kompetisi matematika yang menantang.
AIME25: Menilai penalaran matematika berdasarkan American Invitational Mathematics Examination 2025.
AIME24: Menilai penalaran matematika berdasarkan American Invitational Mathematics Examination 2024.
CMMLU: Menilai pemahaman bahasa multidisiplin dalam bahasa Tionghoa.
MMLU: Menilai pemahaman bahasa multidisiplin dalam bahasa Inggris.
C-Eval: Menilai kemampuan komprehensif dalam bahasa Tionghoa.
GSM8K: Menilai penalaran matematika.
HellaSwag: Menilai penalaran akal sehat.
TruthfulQA: Menilai kebenaran dan faktualitas.
Manajemen tugas
Di halaman Model Evaluation (ModelEval), Anda dapat mengelola tugas evaluasi Anda.
View Report: Untuk tugas berstatus Succeeded, klik View Report untuk melihat laporan evaluasi lengkap.
Compare: Pilih dua hingga lima tugas yang berhasil dan klik Compare untuk melihat perbandingan performa secara berdampingan berdasarkan berbagai metrik.
Stop: Anda dapat menghentikan tugas berstatus Running secara manual. Aksi ini tidak dapat dibatalkan. Tugas tidak dapat dilanjutkan, dan biaya sumber daya komputasi yang telah digunakan tidak dapat dikembalikan.
Delete: Menghapus catatan tugas. Aksi ini tidak dapat dibatalkan.