全部产品
Search
文档中心

Platform For AI:Evaluasi model (ModelEval)

更新时间:Dec 25, 2025

Evaluasi Model (ModelEval) menyediakan alat di platform PAI untuk menilai performa Large Language Models (LLMs) secara sistematis, baik pada tugas umum maupun tugas spesifik domain. Anda dapat menggunakan dataset publik yang otoritatif atau dataset kustom Anda sendiri guna membandingkan kemampuan model, sehingga membantu pengambilan keputusan berbasis data terkait pemilihan model, fine-tuning, dan pembaruan versi.

Mulai cepat: Jalankan evaluasi model pertama Anda dalam 5 menit

Bagian ini menjelaskan cara menjalankan tugas evaluasi sederhana dengan konfigurasi minimal: mengevaluasi model Qwen3-4B pada dataset publik CMMLU.

  1. Masuk ke Konsol PAI. Di panel navigasi kiri, pilih Model Application > Model Evaluation (ModelEval).

  2. Pada halaman Model Evaluation (ModelEval), klik Create Task.

  3. Basic Configuration: Job Name dan Result Output Path dihasilkan secara default oleh sistem.

    Catatan

    Jika Workspace Anda belum memiliki path penyimpanan OSS default yang dikonfigurasi, Anda harus menentukan Result Output Path secara manual.

  4. Konfigurasi pola evaluasi: Pilih Single-model evaluation.

  5. Konfigurasi Objek Evaluasi:

    • Untuk Evaluation Object Type, pilih Public Model.

    • Untuk Public Model, cari dan pilih Qwen3-4B.

  6. Konfigurasi Metode Evaluasi:

    • Pilih Public Dataset Evaluation.

    • Dari daftar dataset, pilih CMMLU.

  7. Konfigurasi Sumber Daya:

    • Atur Resource Group Type menjadi Public Resource Group (Pay-As-You-Go) dan Resource Configuration Method menjadi General Resource.

    • Dari daftar drop-down Resource Specification, pilih spesifikasi GPU, misalnya ecs.gn7i-c8g1.2xlarge (24 GB).

  8. Kirim tugas: Klik OK di bagian bawah halaman.

Setelah mengirim tugas, halaman akan otomatis dialihkan ke detail tugas. Tunggu hingga status tugas berubah menjadi Succeeded. Anda kemudian dapat melihat performa model Qwen3-4B pada dataset CMMLU di tab Evaluation Report.

Fitur

Konfigurasi objek evaluasi

Evaluasi Model mendukung empat jenis objek evaluasi. Pilih jenis berdasarkan cara model atau layanan Anda dideploy.

Evaluation object type

Description

Scenarios

Public model

Model dari PAI Model Gallery.

Menilai performa LLM open-source populer secara cepat.

Custom model

Model kustom yang telah Anda daftarkan di AI Asset Management > Models

Penting

Pastikan framework vLLM kompatibel dengan model tersebut.

Menilai model yang telah melalui fine-tuning atau dikustomisasi.

PAI-EAS service

Layanan Inferensi Online PAI-EAS yang telah dideploy.

Menilai layanan model di lingkungan produksi.

Custom service

Setiap layanan model yang mematuhi spesifikasi API OpenAI.

Menilai layanan model pihak ketiga atau self-hosted.

Konfigurasi metode evaluasi

Anda dapat memilih untuk menggunakan dataset kustom, dataset publik, atau kombinasi keduanya untuk evaluasi.

Evaluasi dataset kustom

Nilai model menggunakan dataset Anda sendiri agar mencerminkan skenario bisnis dunia nyata secara akurat.

  • Format dataset: Harus dalam format JSON Lines (JSONL), dengan satu objek JSON ber-encoding UTF-8 per baris.

  • Unggah dataset: Unggah file dataset Anda ke OSS dan berikan path OSS-nya pada halaman konfigurasi.

Evaluation method

General metric evaluation
Judge model evaluation

Use cases

Metode ini digunakan ketika Anda memiliki jawaban referensi yang jelas. Metode ini menghitung kesamaan teks antara output model dan jawaban referensi. Cocok untuk tugas seperti translation, summarization, dan Knowledge Base Q&A.

Metode ini digunakan ketika tidak ada satu jawaban benar, seperti dalam percakapan terbuka atau pembuatan konten. Metode ini menggunakan Judge Model yang kuat untuk memberi skor kualitas respons model.

Format dataset

Objek JSON harus berisi field question dan answer.

{"question": "What is the capital of China?", "answer": "Beijing"}

Objek JSON dapat hanya berisi field question, atau juga dapat menyertakan field answer (jawaban referensi).

{"question": "Please describe the history of artificial intelligence"}

Core metrics

  • ROUGE (ROUGE-1, ROUGE-2, ROUGE-L): Berdasarkan recall, metrik ini mengukur seberapa banyak informasi dalam jawaban referensi yang tercakup dalam output model.

  • BLEU (BLEU-1, BLEU-2, BLEU-3, BLEU-4): Berdasarkan presisi, metrik ini mengukur seberapa banyak output model yang muncul dalam jawaban referensi.

Sistem mengirimkan question dan output dari model yang dievaluasi ke Judge Model. Judge Model kemudian memberikan skor komprehensif berdasarkan beberapa dimensi, seperti relevansi, akurasi, dan kelancaran.

Evaluasi dataset publik

Nilai model Anda menggunakan dataset otoritatif yang diakui industri untuk membandingkan kemampuannya terhadap tolok ukur industri.

  • Use cases: Membandingkan model untuk pemilihan model, melakukan benchmarking pra-rilis, dan menilai kemampuan umum model.

  • Konfigurasi: Pilih Public Dataset Evaluation dan pilih satu atau beberapa dataset dari daftar.

  • Dataset yang didukung:

    • LiveCodeBench: Menilai pemahaman dan generasi kode.

    • Math500: Menilai penalaran matematika dengan 500 soal kompetisi matematika yang menantang.

    • AIME25: Menilai penalaran matematika berdasarkan American Invitational Mathematics Examination 2025.

    • AIME24: Menilai penalaran matematika berdasarkan American Invitational Mathematics Examination 2024.

    • CMMLU: Menilai pemahaman bahasa multidisiplin dalam bahasa Tionghoa.

    • MMLU: Menilai pemahaman bahasa multidisiplin dalam bahasa Inggris.

    • C-Eval: Menilai kemampuan komprehensif dalam bahasa Tionghoa.

    • GSM8K: Menilai penalaran matematika.

    • HellaSwag: Menilai penalaran akal sehat.

    • TruthfulQA: Menilai kebenaran dan faktualitas.

Manajemen tugas

Di halaman Model Evaluation (ModelEval), Anda dapat mengelola tugas evaluasi Anda.

  • View Report: Untuk tugas berstatus Succeeded, klik View Report untuk melihat laporan evaluasi lengkap.

  • Compare: Pilih dua hingga lima tugas yang berhasil dan klik Compare untuk melihat perbandingan performa secara berdampingan berdasarkan berbagai metrik.

  • Stop: Anda dapat menghentikan tugas berstatus Running secara manual. Aksi ini tidak dapat dibatalkan. Tugas tidak dapat dilanjutkan, dan biaya sumber daya komputasi yang telah digunakan tidak dapat dikembalikan.

  • Delete: Menghapus catatan tugas. Aksi ini tidak dapat dibatalkan.