All Products
Search
Document Center

Platform For AI:Praktik terbaik untuk evaluasi LLM

Last Updated:Jun 03, 2026

Evaluasi LLM PAI memungkinkan Anda membandingkan model dasar, versi fine-tuned, dan versi terkuantisasi. Topik ini menjelaskan cara mengevaluasi model menggunakan dataset kustom dan publik untuk menemukan model yang paling sesuai dengan kasus penggunaan Anda.

Latar Belakang

Pendahuluan

Seiring perkembangan LLM, evaluasi sistematis membantu pengembang membandingkan model, memandu pemilihan, dan mempercepat penerapan. Praktik terbaik evaluasi berbasis platform menjadikan proses ini dapat diulang dan efisien.

Gunakan panduan ini untuk membangun alur kerja evaluasi di PAI yang secara akurat mencerminkan kinerja model. Panduan ini mencakup cara:

  • Menyiapkan dan memilih dataset evaluasi

  • Memilih model open-source atau fine-tuned untuk kasus penggunaan Anda

  • Membuat pekerjaan evaluasi dan memilih metode evaluasi yang sesuai

  • Menafsirkan hasil evaluasi dalam skenario tugas tunggal atau multi-tugas

Fitur platform

Evaluasi LLM PAI mendukung perbandingan seperti:

  • Membandingkan model dasar yang berbeda, misalnya Qwen2-7B-Instruct vs. Baichuan2-7B-Chat.

  • Membandingkan versi fine-tuned yang berbeda dari model yang sama, misalnya versi Qwen2-7B-Instruct yang dilatih selama jumlah epoch berbeda pada data privat.

  • Membandingkan versi terkuantisasi yang berbeda dari model yang sama, misalnya Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8.

Topik ini menggunakan contoh pengembang enterprise dan peneliti algoritma untuk menunjukkan cara menggabungkan dataset kustom dengan dataset publik (seperti MMLU dan C-Eval) guna evaluasi yang terfokus. Fitur utama platform:

  • Pipa evaluasi end-to-end tanpa kode untuk LLM open-source utama dan evaluasi satu klik untuk LLM fine-tuned.

  • Unggah dataset kustom, lebih dari 10 metrik NLP bawaan, dan hasil terkonsolidasi — tidak diperlukan skrip evaluasi.

  • Dataset publik bawaan lintas berbagai domain dengan metode evaluasi resmi yang sepenuhnya direproduksi dan ikhtisar grafik radar.

  • Evaluasi multi-model dan multi-tugas simultan dengan perbandingan berbasis grafik dan detail per-record.

  • Kode evaluasi open-source di repositori eval-scope (dikembangkan bersama ModelScope) untuk transparansi dan reproduktibilitas penuh.

Penagihan

Kasus penggunaan 1: Evaluasi dataset kustom

Pengembang enterprise biasanya mengevaluasi LLM open-source atau fine-tuned dengan dataset kustom yang dibangun dari data privat spesifik domain untuk mengukur kinerja model dalam domain target mereka.

PAI mengevaluasi dataset kustom dengan menghitung kemiripan teks antara output model dan ground truth menggunakan metrik NLP standar. Skor yang lebih tinggi menunjukkan kinerja yang lebih baik.

Langkah-langkah utama diuraikan di bawah ini. Prosedur lengkap tersedia di Evaluasi model.

  1. Siapkan dataset evaluasi kustom.

    1. Format dataset:

      Untuk mengevaluasi dengan dataset kustom, siapkan file evaluasi dalam format JSONL (contoh: llmuses_general_qa_test.jsonl, 76 KB). Formatnya sebagai berikut:

      [{"question": "Is it true that China invented papermaking?", "answer": "True"}]
      [{"question": "Is it true that China invented gunpowder?", "answer": "True"}]

      Gunakan question untuk mengidentifikasi kolom pertanyaan, dan answer untuk mengidentifikasi kolom jawaban.

    2. Unggah file evaluasi dalam format yang diperlukan ke OSS. Unggah file ke OSS.

    3. Buat dataset evaluasi dari file OSS. Buat dataset dari Produk Alibaba Cloud.

  2. Pilih model.

    Model open-source

    Di Konsol PAI, navigasikan ke Quick Start > Model Gallery. Untuk model yang dapat dievaluasi, tombol Evaluate muncul saat Anda mengarahkan kursor ke kartu model.

    Kartu model juga menampilkan tombol Deploy untuk penerapan cepat.

    Model fine-tuned

    Di Konsol PAI, navigasikan ke Quick Start > Model Gallery. Untuk model yang dapat dievaluasi, tombol Evaluate muncul saat Anda mengarahkan kursor ke kartu model. Setelah Anda melakukan fine-tuning model, navigasikan ke Quick Start > Model Gallery > Job Management > Training Jobs. Klik pekerjaan yang berhasil diselesaikan, lalu tombol Evaluate akan muncul di pojok kanan atas.

    Fitur evaluasi model mendukung semua model Hugging Face bertipe AutoModelForCausalLM.

  3. Buat dan jalankan pekerjaan evaluasi.

    Di halaman detail model, klik Evaluate di pojok kanan atas untuk membuat pekerjaan evaluasi.

    Konfigurasikan parameter utama sebagai berikut:

    Parameter

    Deskripsi

    Base configuration

    Result Output Path

    Tentukan path OSS untuk menyimpan hasil evaluasi.

    Custom Dataset Configuration

    Evaluation Method

    Opsi yang tersedia:

    • General Metric Evaluation: Menghitung kemiripan teks antara prediksi model dan jawaban referensi menggunakan metrik seperti ROUGE dan BLEU. Metode ini cocok untuk skenario dengan jawaban pasti.

    • Judge Model Evaluation: Menggunakan model LLM-as-a-Judge yang disediakan oleh Alibaba Cloud PAI untuk memberi skor otomatis pada jawaban model. Jawaban referensi tidak diperlukan. Metode ini cocok untuk skenario dengan jawaban kompleks atau tidak unik. Hasilnya mencakup skor keseluruhan dan skor untuk lima sub-metrik.

    LLM-as-a-Judge service token

    Parameter ini wajib diisi jika Anda memilih LLM-as-a-Judge Evaluation. Untuk mendapatkan token, kunjungi halaman model LLM-as-a-Judge.

    Dataset Source

    Pilih dataset yang sudah ada.

    Select an existing dataset.

    Pilih dataset kustom yang telah Anda buat.

    Resource Configuration

    Resource Group Type

    Pilih kelompok sumber daya publik, sumber daya komputasi umum, atau sumber daya komputasi cerdas Lingjun.

    Job Resource

    Jika Anda memilih public resource group untuk Resource group type, sistem akan merekomendasikan sumber daya berdasarkan spesifikasi model Anda.

    Klik Submit untuk menjalankan pekerjaan.

  4. Lihat hasil evaluasi.

    Hasil tugas tunggal

    Di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs, klik View Report di kolom Actions untuk pekerjaan dengan Status Succeeded. Di halaman Custom Dataset Evaluation Result, Anda dapat melihat skor model pada berbagai metrik ROUGE dan BLEU.

    Halaman ini juga menampilkan hasil evaluasi terperinci untuk setiap item dalam file evaluasi.

    Hasil perbandingan multi-tugas

    Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, pilih pekerjaan evaluasi yang ingin dibandingkan lalu klik Compare di pojok kanan atas untuk melihat hasil perbandingan di halaman Custom Dataset Evaluation Result.

    Halaman hasil perbandingan berisi tab Custom Dataset Evaluation Result dan Public Dataset Evaluation Result. Di area General Metric Evaluation Result, Anda dapat membandingkan kinerja model berdasarkan metrik seperti BLEU (bleu-1 hingga bleu-4) dan ROUGE (precision, recall, dan f-score untuk rouge-1, rouge-2, dan rouge-l) menggunakan grafik radar. Tabel di bawahnya menampilkan nilai metrik terperinci untuk setiap model dan dapat diekspor.

    Menafsirkan hasil:

    Metrik evaluasi default untuk dataset kustom meliputi: rouge-1-f, rouge-1-p, rouge-1-r, rouge-2-f, rouge-2-p, rouge-2-r, rouge-l-f, rouge-l-p, rouge-l-r, bleu-1, bleu-2, bleu-3, dan bleu-4.

    • ROUGE-n mengukur tumpang tindih n-gram (ROUGE-1 untuk unigram, ROUGE-2 untuk bigram). ROUGE-L menggunakan Longest Common Subsequence (LCS).

    • BLEU (Bilingual Evaluation Understudy) mengukur tumpang tindih n-gram antara output yang dihasilkan dan terjemahan referensi. BLEU-n menghitung laju kecocokan n-gram.

    Hasil evaluasi akhir disimpan ke Result output path yang telah Anda tentukan.

Kasus penggunaan 2: Evaluasi dataset publik

Peneliti algoritma mengandalkan dataset publik untuk memilih model open-source atau memvalidasi hasil fine-tuning. PAI mengintegrasikan dataset publik lintas berbagai domain dan sepenuhnya mereproduksi metrik evaluasi resmi, sehingga Anda tidak perlu mengunduh dataset satu per satu atau mempelajari setiap alur kerja evaluasi.

PAI mengkategorikan dataset publik berdasarkan domain (matematika, pengetahuan, penalaran) untuk menilai kemampuan model secara keseluruhan. Skor yang lebih tinggi menunjukkan kinerja yang lebih baik.

Langkah-langkah utama diuraikan di bawah ini. Prosedur lengkap tersedia di Evaluasi model.

  1. Dataset publik yang didukung:

    PAI mendukung dataset publik berikut (akan terus ditambahkan):

    Dataset

    Ukuran

    Records

    Domain

    MMLU

    166 MB

    14.042

    Knowledge

    TriviaQA

    14,3 MB

    17.944

    Knowledge

    C-Eval

    1,55 MB

    12.342

    Chinese

    CMMLU

    1,08 MB

    11.582

    Chinese

    GSM8K

    4,17 MB

    1.319

    Math

    HellaSwag

    47,5 MB

    10.042

    Reasoning

    TruthfulQA

    0,284 MB

    816

    Safety

  2. Pilih model.

    Model open-source

    Di Konsol PAI, navigasikan ke QuickStart > Model Gallery. Untuk model yang dapat dievaluasi, tombol Evaluate muncul saat Anda mengarahkan kursor ke kartu model.

    Model fine-tuned

    Di Konsol PAI, navigasikan ke QuickStart > Model Gallery. Untuk model yang dapat dievaluasi, tombol Evaluate muncul saat Anda mengarahkan kursor ke kartu model. Setelah Anda melakukan fine-tuning model, navigasikan ke QuickStart > Model Gallery > Job Management > Training Jobs. Klik pekerjaan yang berhasil diselesaikan, lalu tombol Evaluate akan muncul di pojok kanan atas.

    Fitur evaluasi model mendukung semua model Hugging Face bertipe AutoModelForCausalLM.

  3. Buat dan jalankan pekerjaan evaluasi.

    Di halaman detail model, klik Evaluate di pojok kanan atas untuk membuat pekerjaan evaluasi.

    Di bagian Base configuration, masukkan Job Name dan pilih model yang akan dievaluasi dari daftar drop-down Model, misalnya Qwen3-235B-A22B.

    Parameter

    Deskripsi

    Base configuration

    Result Output Path

    Tentukan path OSS untuk menyimpan hasil evaluasi.

    Public dataset configuration

    Public Dataset

    Pilih satu atau beberapa dataset publik.

    Resource Configuration

    Resource Group Type

    Pilih kelompok sumber daya publik, sumber daya komputasi umum, atau sumber daya komputasi cerdas Lingjun.

    Job Resource

    Jika Anda memilih public resource group untuk Resource group type, sistem akan merekomendasikan sumber daya berdasarkan spesifikasi model Anda.

    Klik Submit untuk menjalankan pekerjaan.

  4. Lihat hasil evaluasi.

    Hasil tugas tunggal

    Di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs, klik View Report di kolom Actions untuk pekerjaan dengan Status Succeeded. Anda kemudian dapat melihat skor model di berbagai domain dan dataset di halaman Custom Dataset Evaluation Result.

    Di tab Evaluation Report, beralihlah ke sub-tab Public Dataset Evaluation Result untuk melihat distribusi skor model pada dataset publik seperti C-Eval, CMMLU, GSM8K, HellaSwag, MMLU, TriviaQA, dan TruthfulQA dalam bentuk grafik radar.

    Hasil perbandingan multi-tugas

    Di halaman Quick Start > Model Gallery > Job Management > Evaluation Jobs, pilih pekerjaan evaluasi yang ingin dibandingkan lalu klik Compare di pojok kanan atas untuk melihat hasil di halaman Evaluation Results of Public Datasets.

    Grafik radar di bagian atas halaman menunjukkan skor untuk setiap dataset. Tabel di bawahnya mencantumkan Job Name, Model, dan skor dataset untuk setiap pekerjaan evaluasi.

    Menafsirkan hasil:

    • Jika suatu domain mencakup beberapa dataset, evaluasi LLM PAI menghitung skor domain dengan merata-ratakan skor model di seluruh dataset tersebut.

    • Laporan juga menampilkan skor per-dataset. Bagian Dataset publik yang didukung mencantumkan cakupan masing-masing dataset.

    Hasil evaluasi akhir disimpan ke Result output path yang telah Anda tentukan.

Dokumentasi terkait

Evaluasi model