Evaluasi model (ModelEval) - Platform For AI

Evaluasi Model (ModelEval) menyediakan alat di platform PAI untuk menilai performa Large Language Models (LLMs) secara sistematis, baik pada tugas umum maupun tugas spesifik domain. Anda dapat menggunakan dataset publik yang otoritatif atau dataset kustom Anda sendiri guna membandingkan kemampuan model, sehingga membantu pengambilan keputusan berbasis data terkait pemilihan model, fine-tuning, dan pembaruan versi.

Mulai cepat: Jalankan evaluasi model pertama Anda dalam 5 menit

Bagian ini menjelaskan cara menjalankan tugas evaluasi sederhana dengan konfigurasi minimal: mengevaluasi model Qwen3-4B pada dataset publik CMMLU.

Masuk ke Konsol PAI. Di panel navigasi kiri, pilih Model Application > Model Evaluation (ModelEval).
Pada halaman Model Evaluation (ModelEval), klik Create Task.
Basic Configuration: Job Name dan Result Output Path dihasilkan secara default oleh sistem.
Catatan
Jika Workspace Anda belum memiliki path penyimpanan OSS default yang dikonfigurasi, Anda harus menentukan Result Output Path secara manual.
Konfigurasi pola evaluasi: Pilih Single-model evaluation.
Konfigurasi Objek Evaluasi:
- Untuk Evaluation Object Type, pilih Public Model.
- Untuk Public Model, cari dan pilih Qwen3-4B.
Konfigurasi Metode Evaluasi:
- Pilih Public Dataset Evaluation.
- Dari daftar dataset, pilih CMMLU.
Konfigurasi Sumber Daya:
- Atur Resource Group Type menjadi Public Resource Group (Pay-As-You-Go) dan Resource Configuration Method menjadi General Resource.
- Dari daftar drop-down Resource Specification, pilih spesifikasi GPU, misalnya ecs.gn7i-c8g1.2xlarge (24 GB).
Kirim tugas: Klik OK di bagian bawah halaman.

Setelah mengirim tugas, halaman akan otomatis dialihkan ke detail tugas. Tunggu hingga status tugas berubah menjadi Succeeded. Anda kemudian dapat melihat performa model Qwen3-4B pada dataset CMMLU di tab Evaluation Report.

Fitur

Konfigurasi objek evaluasi

Evaluasi Model mendukung empat jenis objek evaluasi. Pilih jenis berdasarkan cara model atau layanan Anda dideploy.

Evaluation object type	Description	Scenarios
Public model	Model dari PAI Model Gallery.	Menilai performa LLM open-source populer secara cepat.
Custom model	Model kustom yang telah Anda daftarkan di AI Asset Management > Models Penting Pastikan framework vLLM kompatibel dengan model tersebut.	Menilai model yang telah melalui fine-tuning atau dikustomisasi.
PAI-EAS service	Layanan Inferensi Online PAI-EAS yang telah dideploy.	Menilai layanan model di lingkungan produksi.
Custom service	Setiap layanan model yang mematuhi spesifikasi API OpenAI.	Menilai layanan model pihak ketiga atau self-hosted.

Konfigurasi metode evaluasi

Anda dapat memilih untuk menggunakan dataset kustom, dataset publik, atau kombinasi keduanya untuk evaluasi.

Evaluasi dataset kustom

Nilai model menggunakan dataset Anda sendiri agar mencerminkan skenario bisnis dunia nyata secara akurat.

Format dataset: Harus dalam format JSON Lines (JSONL), dengan satu objek JSON ber-encoding UTF-8 per baris.
Unggah dataset: Unggah file dataset Anda ke OSS dan berikan path OSS-nya pada halaman konfigurasi.

Evaluation method	General metric evaluation	Judge model evaluation
Use cases	Metode ini digunakan ketika Anda memiliki jawaban referensi yang jelas. Metode ini menghitung kesamaan teks antara output model dan jawaban referensi. Cocok untuk tugas seperti translation, summarization, dan Knowledge Base Q&A.	Metode ini digunakan ketika tidak ada satu jawaban benar, seperti dalam percakapan terbuka atau pembuatan konten. Metode ini menggunakan Judge Model yang kuat untuk memberi skor kualitas respons model.
Format dataset	Objek JSON harus berisi field `question` dan `answer`. `{"question": "What is the capital of China?", "answer": "Beijing"}`	Objek JSON dapat hanya berisi field `question`, atau juga dapat menyertakan field `answer` (jawaban referensi). `{"question": "Please describe the history of artificial intelligence"}`
Core metrics	ROUGE (ROUGE-1, ROUGE-2, ROUGE-L): Berdasarkan recall, metrik ini mengukur seberapa banyak informasi dalam jawaban referensi yang tercakup dalam output model. BLEU (BLEU-1, BLEU-2, BLEU-3, BLEU-4): Berdasarkan presisi, metrik ini mengukur seberapa banyak output model yang muncul dalam jawaban referensi.	Sistem mengirimkan `question` dan output dari model yang dievaluasi ke Judge Model. Judge Model kemudian memberikan skor komprehensif berdasarkan beberapa dimensi, seperti relevansi, akurasi, dan kelancaran.

Evaluasi dataset publik

Nilai model Anda menggunakan dataset otoritatif yang diakui industri untuk membandingkan kemampuannya terhadap tolok ukur industri.

Use cases: Membandingkan model untuk pemilihan model, melakukan benchmarking pra-rilis, dan menilai kemampuan umum model.
Konfigurasi: Pilih Public Dataset Evaluation dan pilih satu atau beberapa dataset dari daftar.
Dataset yang didukung:
- LiveCodeBench: Menilai pemahaman dan generasi kode.
- Math500: Menilai penalaran matematika dengan 500 soal kompetisi matematika yang menantang.
- AIME25: Menilai penalaran matematika berdasarkan American Invitational Mathematics Examination 2025.
- AIME24: Menilai penalaran matematika berdasarkan American Invitational Mathematics Examination 2024.
- CMMLU: Menilai pemahaman bahasa multidisiplin dalam bahasa Tionghoa.
- MMLU: Menilai pemahaman bahasa multidisiplin dalam bahasa Inggris.
- C-Eval: Menilai kemampuan komprehensif dalam bahasa Tionghoa.
- GSM8K: Menilai penalaran matematika.
- HellaSwag: Menilai penalaran akal sehat.
- TruthfulQA: Menilai kebenaran dan faktualitas.

Manajemen tugas

Di halaman Model Evaluation (ModelEval), Anda dapat mengelola tugas evaluasi Anda.

View Report: Untuk tugas berstatus Succeeded, klik View Report untuk melihat laporan evaluasi lengkap.
Compare: Pilih dua hingga lima tugas yang berhasil dan klik Compare untuk melihat perbandingan performa secara berdampingan berdasarkan berbagai metrik.
Stop: Anda dapat menghentikan tugas berstatus Running secara manual. Aksi ini tidak dapat dibatalkan. Tugas tidak dapat dilanjutkan, dan biaya sumber daya komputasi yang telah digunakan tidak dapat dikembalikan.
Delete: Menghapus catatan tugas. Aksi ini tidak dapat dibatalkan.