Evaluasi model (ModelEval) adalah alat pada platform PAI yang memungkinkan evaluasi komprehensif dan efisien terhadap model bahasa besar (LLM) dalam skenario spesifik maupun umum. Alat ini menggunakan dataset publik yang otoritatif atau dataset bisnis kustom untuk menganalisis kemampuan model secara kuantitatif, sehingga menyediakan data pendukung untuk pemilihan model, fine-tuning, dan iterasi versi.
Mulai cepat: Selesaikan evaluasi model pertama Anda dalam 5 menit
Bagian ini memandu Anda melalui tugas evaluasi sederhana dengan konfigurasi minimal. Anda akan mengevaluasi kemampuan pemahaman dan inferensi bahasa Mandarin dari model Qwen3-4B menggunakan dataset CMMLU publik.
Masuk ke Konsol PAI. Di panel navigasi kiri, pilih Model Application > Model Evaluation (ModelEval).
Pada halaman Model Evaluation, klik Create Task.
Konfigurasi Dasar: Gunakan Task Name dan Result Output Path yang dihasilkan sistem.
CatatanJika path penyimpanan OSS default belum ditetapkan untuk ruang kerja, pilih secara manual path output hasil.
Konfigurasi Mode Evaluasi: Pilih Single Model Evaluation.
Konfigurasi Objek Evaluasi:
Tetapkan Evaluation Object Type ke Public Model.
Pada daftar drop-down Public Model, cari dan pilih
Qwen3-4B.
Konfigurasi Metode Evaluasi:
Pilih Evaluate with Public Dataset.
Pada daftar dataset, pilih CMMLU.
Konfigurasi Sumber Daya:
Resource Group Type: Pilih Public Resource Group (Pay-As-You-Go).
Resource Configuration Method: Pilih Standard Resources.
Resource Specification: Pilih spesifikasi GPU, misalnya
ecs.gn7i-c8g1.2xlarge(24 GB).Jika instans dengan spesifikasi ini tidak tersedia, pilih instans GPU-accelerated lainnya.
Kirimkan tugas: Klik OK di bagian bawah halaman.
Setelah mengirimkan tugas, halaman akan otomatis dialihkan ke detail tugas. Tunggu hingga status tugas berubah menjadi Succeeded. Anda kemudian dapat melihat performa model Qwen3-4B pada dataset CMMLU di tab Evaluation Report.
Detail fitur
Konfigurasi objek evaluasi
ModelEval mendukung empat sumber objek evaluasi. Pilih salah satu berdasarkan lokasi penyebaran model atau layanan Anda.
Evaluation object type | Description | Scenarios |
Public Model | Model dari PAI Model Gallery | Evaluasi cepat performa LLM open source utama |
Custom Model | Model kustom yang terdaftar di Penting Pastikan model kompatibel dengan framework vLLM. | Evaluasi model yang telah melalui fine-tuning atau dikustomisasi |
PAI-EAS Service | Layanan inferensi online PAI-EAS yang telah dideploy | Evaluasi layanan model di lingkungan produksi |
Custom Service | Semua layanan model yang mematuhi spesifikasi API OpenAI | Evaluasi layanan model pihak ketiga atau yang dibangun sendiri |
Konfigurasi metode evaluasi
Anda dapat menggunakan dataset kustom, dataset publik, atau kombinasi keduanya untuk evaluasi.
Evaluasi menggunakan dataset kustom
Lakukan evaluasi dengan dataset Anda sendiri agar hasilnya lebih sesuai dengan skenario bisnis Anda.
Format dataset: Harus dalam format JSONL dengan encoding UTF-8. Setiap baris harus berupa satu objek JSON.
Upload dataset: Unggah file dataset yang telah disiapkan ke OSS dan masukkan path OSS-nya pada halaman konfigurasi.
Evaluation method | General metric evaluation | LLM-as-a-Judge evaluation |
Purpose | Gunakan metode ini jika Anda memiliki ground truth yang jelas. Metode ini menghitung kesamaan teks antara output model dan ground truth. Cocok untuk tugas seperti translation, summarization, dan Q&A basis pengetahuan. | Gunakan metode ini jika tidak ada jawaban tunggal yang benar untuk suatu pertanyaan, seperti dalam percakapan terbuka atau pembuatan konten. "LLM-as-a-Judge" yang kuat digunakan untuk memberi skor kualitas respons model. |
Format dataset | Objek JSON harus berisi field | Objek JSON hanya perlu berisi field |
Core metrics |
| Sistem mengirimkan |
Evaluasi menggunakan dataset publik
Gunakan dataset otoritatif yang diakui industri untuk membandingkan kemampuan model Anda terhadap benchmark industri.
Purpose: Membandingkan model untuk pemilihan, melakukan pengujian benchmark pra-rilis, dan mengevaluasi kemampuan umum model.
Configuration: Pilih Evaluate with Public Dataset dan pilih satu atau beberapa dataset dari daftar.
Dataset yang didukung:
LiveCodeBench: Mengevaluasi kemampuan pemrosesan kode.
Math500: Mengevaluasi kemampuan penalaran matematika (500 soal kompetisi matematika tingkat sulit).
AIME25: Mengevaluasi kemampuan penalaran matematika (berdasarkan soal American Invitational Mathematics Examination 2025).
AIME24: Mengevaluasi kemampuan penalaran matematika (berdasarkan soal American Invitational Mathematics Examination 2024).
CMMLU: Mengevaluasi pemahaman bahasa multidisiplin dalam bahasa Mandarin.
MMLU: Mengevaluasi pemahaman bahasa multidisiplin dalam bahasa Inggris.
C-Eval: Mengevaluasi kemampuan bahasa Mandarin secara komprehensif.
GSM8K: Mengevaluasi kemampuan penalaran matematika.
HellaSwag: Mengevaluasi kemampuan penalaran akal sehat.
TruthfulQA: Mengevaluasi kebenaran (truthfulness).
Manajemen tugas
Pada halaman Model Evaluation, Anda dapat mengelola siklus hidup tugas evaluasi.
View Report: Untuk tugas dengan status Succeeded, klik tombol ini untuk melihat laporan evaluasi lengkap.
Compare: Pilih dua hingga lima tugas yang berhasil dan klik tombol Compare untuk membandingkan performa mereka berdasarkan berbagai metrik secara berdampingan.
Stop: Anda dapat menghentikan secara manual tugas yang sedang Running. Operasi ini tidak dapat dikembalikan. Tugas tidak dapat dilanjutkan, dan resource komputasi yang telah dikonsumsi tidak akan dikembalikan.
Delete: Menghapus catatan tugas. Operasi ini tidak dapat dibatalkan.
Penagihan
Item yang dapat ditagih untuk ModelEval adalah sebagai berikut:
Resource komputasi
Jenis resource | Metode penagihan | Entitas yang ditagih | Aturan penagihan |
Resource publik | Pay-as-you-go | Waktu proses aktual. |
Untuk harga satuan instans spesifik, lihat harga instans di halaman konsol. |
Kuota resource | Subscription | Kuantitas dan durasi langganan spesifikasi node yang dibeli. | Beli resource khusus dengan subscription. Anda dikenai biaya berdasarkan kuantitas dan durasi langganan spesifikasi node. Untuk informasi selengkapnya, lihat AI Compute Resource Billing. |
LLM-as-a-Judge
Saat Anda memilih LLM-as-a-Judge evaluation sebagai metode evaluasi, biaya tambahan akan dikenakan.