All Products
Search
Document Center

Platform For AI:Evaluasi model (ModelEval)

Last Updated:Feb 13, 2026

Evaluasi model (ModelEval) adalah alat pada platform PAI yang memungkinkan evaluasi komprehensif dan efisien terhadap model bahasa besar (LLM) dalam skenario spesifik maupun umum. Alat ini menggunakan dataset publik yang otoritatif atau dataset bisnis kustom untuk menganalisis kemampuan model secara kuantitatif, sehingga menyediakan data pendukung untuk pemilihan model, fine-tuning, dan iterasi versi.

Mulai cepat: Selesaikan evaluasi model pertama Anda dalam 5 menit

Bagian ini memandu Anda melalui tugas evaluasi sederhana dengan konfigurasi minimal. Anda akan mengevaluasi kemampuan pemahaman dan inferensi bahasa Mandarin dari model Qwen3-4B menggunakan dataset CMMLU publik.

  1. Masuk ke Konsol PAI. Di panel navigasi kiri, pilih Model Application > Model Evaluation (ModelEval).

  2. Pada halaman Model Evaluation, klik Create Task.

  3. Konfigurasi Dasar: Gunakan Task Name dan Result Output Path yang dihasilkan sistem.

    Catatan

    Jika path penyimpanan OSS default belum ditetapkan untuk ruang kerja, pilih secara manual path output hasil.

  4. Konfigurasi Mode Evaluasi: Pilih Single Model Evaluation.

  5. Konfigurasi Objek Evaluasi:

    • Tetapkan Evaluation Object Type ke Public Model.

    • Pada daftar drop-down Public Model, cari dan pilih Qwen3-4B.

  6. Konfigurasi Metode Evaluasi:

    • Pilih Evaluate with Public Dataset.

    • Pada daftar dataset, pilih CMMLU.

  7. Konfigurasi Sumber Daya:

    • Resource Group Type: Pilih Public Resource Group (Pay-As-You-Go).

    • Resource Configuration Method: Pilih Standard Resources.

    • Resource Specification: Pilih spesifikasi GPU, misalnya ecs.gn7i-c8g1.2xlarge (24 GB).

      Jika instans dengan spesifikasi ini tidak tersedia, pilih instans GPU-accelerated lainnya.
  8. Kirimkan tugas: Klik OK di bagian bawah halaman.

Setelah mengirimkan tugas, halaman akan otomatis dialihkan ke detail tugas. Tunggu hingga status tugas berubah menjadi Succeeded. Anda kemudian dapat melihat performa model Qwen3-4B pada dataset CMMLU di tab Evaluation Report.

Detail fitur

Konfigurasi objek evaluasi

ModelEval mendukung empat sumber objek evaluasi. Pilih salah satu berdasarkan lokasi penyebaran model atau layanan Anda.

Evaluation object type

Description

Scenarios

Public Model

Model dari PAI Model Gallery

Evaluasi cepat performa LLM open source utama

Custom Model

Model kustom yang terdaftar di AI Asset Management > Models

Penting

Pastikan model kompatibel dengan framework vLLM.

Evaluasi model yang telah melalui fine-tuning atau dikustomisasi

PAI-EAS Service

Layanan inferensi online PAI-EAS yang telah dideploy

Evaluasi layanan model di lingkungan produksi

Custom Service

Semua layanan model yang mematuhi spesifikasi API OpenAI

Evaluasi layanan model pihak ketiga atau yang dibangun sendiri

Konfigurasi metode evaluasi

Anda dapat menggunakan dataset kustom, dataset publik, atau kombinasi keduanya untuk evaluasi.

Evaluasi menggunakan dataset kustom

Lakukan evaluasi dengan dataset Anda sendiri agar hasilnya lebih sesuai dengan skenario bisnis Anda.

  • Format dataset: Harus dalam format JSONL dengan encoding UTF-8. Setiap baris harus berupa satu objek JSON.

  • Upload dataset: Unggah file dataset yang telah disiapkan ke OSS dan masukkan path OSS-nya pada halaman konfigurasi.

Evaluation method

General metric evaluation

LLM-as-a-Judge evaluation

Purpose

Gunakan metode ini jika Anda memiliki ground truth yang jelas. Metode ini menghitung kesamaan teks antara output model dan ground truth. Cocok untuk tugas seperti translation, summarization, dan Q&A basis pengetahuan.

Gunakan metode ini jika tidak ada jawaban tunggal yang benar untuk suatu pertanyaan, seperti dalam percakapan terbuka atau pembuatan konten. "LLM-as-a-Judge" yang kuat digunakan untuk memberi skor kualitas respons model.

Format dataset

Objek JSON harus berisi field question dan answer (ground truth).

{"question": "What is the capital of China?", "answer": "Beijing"}

Objek JSON hanya perlu berisi field question, atau juga dapat menyertakan field answer (ground truth).

{"question": "Please describe the history of artificial intelligence"}

Core metrics

  • ROUGE (ROUGE-1, ROUGE-2, ROUGE-L): Berdasarkan recall, mengukur seberapa banyak poin informasi dari ground truth yang tercakup dalam output model.

  • BLEU (BLEU-1, BLEU-2,BLEU-3, BLEU-4): Berdasarkan presisi, mengukur seberapa akurat konten dalam output model.

Sistem mengirimkan question dan output model yang dievaluasi ke LLM-as-a-Judge. Judge tersebut kemudian memberikan skor komprehensif berdasarkan beberapa dimensi, seperti relevansi, akurasi, dan kelancaran.

Evaluasi menggunakan dataset publik

Gunakan dataset otoritatif yang diakui industri untuk membandingkan kemampuan model Anda terhadap benchmark industri.

  • Purpose: Membandingkan model untuk pemilihan, melakukan pengujian benchmark pra-rilis, dan mengevaluasi kemampuan umum model.

  • Configuration: Pilih Evaluate with Public Dataset dan pilih satu atau beberapa dataset dari daftar.

  • Dataset yang didukung:

    • LiveCodeBench: Mengevaluasi kemampuan pemrosesan kode.

    • Math500: Mengevaluasi kemampuan penalaran matematika (500 soal kompetisi matematika tingkat sulit).

    • AIME25: Mengevaluasi kemampuan penalaran matematika (berdasarkan soal American Invitational Mathematics Examination 2025).

    • AIME24: Mengevaluasi kemampuan penalaran matematika (berdasarkan soal American Invitational Mathematics Examination 2024).

    • CMMLU: Mengevaluasi pemahaman bahasa multidisiplin dalam bahasa Mandarin.

    • MMLU: Mengevaluasi pemahaman bahasa multidisiplin dalam bahasa Inggris.

    • C-Eval: Mengevaluasi kemampuan bahasa Mandarin secara komprehensif.

    • GSM8K: Mengevaluasi kemampuan penalaran matematika.

    • HellaSwag: Mengevaluasi kemampuan penalaran akal sehat.

    • TruthfulQA: Mengevaluasi kebenaran (truthfulness).

Manajemen tugas

Pada halaman Model Evaluation, Anda dapat mengelola siklus hidup tugas evaluasi.

  • View Report: Untuk tugas dengan status Succeeded, klik tombol ini untuk melihat laporan evaluasi lengkap.

  • Compare: Pilih dua hingga lima tugas yang berhasil dan klik tombol Compare untuk membandingkan performa mereka berdasarkan berbagai metrik secara berdampingan.

  • Stop: Anda dapat menghentikan secara manual tugas yang sedang Running. Operasi ini tidak dapat dikembalikan. Tugas tidak dapat dilanjutkan, dan resource komputasi yang telah dikonsumsi tidak akan dikembalikan.

  • Delete: Menghapus catatan tugas. Operasi ini tidak dapat dibatalkan.

Penagihan

Item yang dapat ditagih untuk ModelEval adalah sebagai berikut:

Resource komputasi

Jenis resource

Metode penagihan

Entitas yang ditagih

Aturan penagihan

Resource publik

Pay-as-you-go

Waktu proses aktual.

Jumlah tagihan = (Harga satuan / 60) × Durasi layanan (dalam menit)

Untuk harga satuan instans spesifik, lihat harga instans di halaman konsol.

Kuota resource

Subscription

Kuantitas dan durasi langganan spesifikasi node yang dibeli.

Beli resource khusus dengan subscription. Anda dikenai biaya berdasarkan kuantitas dan durasi langganan spesifikasi node. Untuk informasi selengkapnya, lihat AI Compute Resource Billing.

LLM-as-a-Judge

Saat Anda memilih LLM-as-a-Judge evaluation sebagai metode evaluasi, biaya tambahan akan dikenakan.