全部产品
Search
文档中心

Platform For AI:Praktik Terbaik untuk Evaluasi LLM

更新时间:Nov 09, 2025

Evaluasi Large Language Models (LLM) sangat penting untuk mengukur performa, memilih model yang tepat, dan mengoptimalkannya guna mempercepat inovasi serta penerapan AI. Platform evaluasi model PAI mendukung berbagai skenario evaluasi seperti membandingkan model dasar, versi fine-tuned, dan versi kuantisasi. Dokumen ini memberikan panduan tentang cara melakukan evaluasi model secara komprehensif dan terarah untuk kelompok pengguna dan jenis dataset yang berbeda demi mencapai hasil optimal di bidang AI.

Informasi latar belakang

Pendahuluan

Seiring dengan semakin canggihnya LLM, kebutuhan akan evaluasi model yang ketat menjadi lebih besar dari sebelumnya. Proses evaluasi yang ilmiah dan efisien tidak hanya membantu pengembang mengukur dan membandingkan performa model tetapi juga membimbing mereka dalam pemilihan dan optimasi model, mempercepat adopsi inovasi AI. Oleh karena itu, seperangkat praktik terbaik berbasis platform untuk evaluasi LLM menjadi esensial.

Dokumen ini menyajikan praktik terbaik untuk menggunakan layanan evaluasi model Platform for AI (PAI). Panduan ini membantu Anda membangun proses evaluasi yang komprehensif, mencerminkan performa sebenarnya dari model, dan memenuhi kebutuhan industri spesifik Anda, sehingga membantu Anda unggul dalam artificial intelligence. Praktik terbaik ini mencakup topik-topik berikut:

  • Cara menyiapkan dan memilih dataset evaluasi.

  • Cara memilih model sumber terbuka atau fine-tuned yang sesuai dengan kebutuhan bisnis Anda.

  • Cara membuat pekerjaan evaluasi dan memilih metrik evaluasi yang sesuai.

  • Cara menafsirkan hasil evaluasi untuk skenario pekerjaan tunggal dan multi-pekerjaan.

Fitur Platform

Platform evaluasi model PAI membantu Anda membandingkan performa model di berbagai skenario evaluasi. Contohnya:

  • Membandingkan model dasar yang berbeda, seperti Qwen2-7B-Instruct vs. Baichuan2-7B-Chat.

  • Membandingkan versi fine-tuned yang berbeda dari model yang sama, seperti performa versi epoch yang berbeda dari Qwen2-7B-Instruct yang dilatih pada data pribadi Anda.

  • Membandingkan versi kuantisasi yang berbeda dari model yang sama, seperti Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8.

Panduan ini menggunakan pengembang perusahaan dan peneliti algoritma sebagai contoh untuk memenuhi kebutuhan kelompok pengguna yang berbeda. Ini menjelaskan bagaimana menggabungkan dataset kustom Anda sendiri dengan dataset publik umum (seperti MMLU atau C-Eval) untuk mencapai evaluasi model yang lebih komprehensif, akurat, dan terarah. Pendekatan ini membantu Anda menemukan LLM terbaik untuk bisnis Anda. Fitur utama dari praktik ini adalah:

  • Menyediakan alur kerja evaluasi tanpa kode ujung-ke-ujung. Mendukung LLM sumber terbuka utama dan evaluasi satu klik untuk model fine-tuned.

  • Mengizinkan Anda mengunggah dataset kustom. Termasuk lebih dari 10 metrik Natural Language Processing (NLP) bawaan umum dan menampilkan hasil dalam tampilan gaya dasbor, menghilangkan kebutuhan untuk mengembangkan skrip evaluasi.

  • Mendukung evaluasi pada dataset publik populer di berbagai domain. Sepenuhnya mereplikasi metode evaluasi resmi dan menyajikan pandangan holistik dengan grafik radar, menghilangkan kebutuhan untuk mengunduh dataset dan mempelajari prosedur evaluasi terpisah.

  • Mendukung evaluasi simultan dari beberapa model dan pekerjaan. Menampilkan hasil perbandingan dalam grafik dan memberikan hasil rinci untuk setiap sampel, memungkinkan analisis komprehensif.

  • Memastikan proses evaluasi yang transparan dan dapat direproduksi. Kode evaluasi bersifat open-source dan tersedia di repositori eval-scope, dikembangkan bersama dengan ModelScope, memungkinkan Anda meninjau detail dan mereproduksi hasil.

Penagihan

  • Layanan evaluasi model PAI dibangun di atas PAI-QuickStart. QuickStart gratis, tetapi menjalankan evaluasi model mungkin mengakibatkan biaya untuk pekerjaan Distributed Training (DLC). Untuk informasi lebih lanjut tentang penagihan, lihat Penagihan Deep Learning Containers (DLC).

  • Jika Anda mengevaluasi model dengan dataset kustom yang disimpan di Object Storage Service (OSS), penggunaan OSS akan dikenakan biaya tambahan. Untuk informasi lebih lanjut tentang penagihan, lihat Ikhtisar Penagihan OSS.

Kasus Penggunaan 1: Evaluasi model dengan dataset kustom untuk pengembang perusahaan

Perusahaan sering memiliki data pribadi yang luas dan spesifik domain. Memanfaatkan data ini adalah kunci untuk mengoptimalkan algoritma dengan LLM. Oleh karena itu, ketika pengembang perusahaan mengevaluasi model LLM sumber terbuka atau fine-tuned, mereka sering menggunakan dataset kustom dari data pribadi mereka untuk lebih memahami performa model dalam konteks tertentu tersebut.

Untuk evaluasi dengan dataset kustom, platform evaluasi model PAI menggunakan metode pencocokan teks NLP standar untuk menghitung kesamaan antara output model dan jawaban ground-truth. Skor yang lebih tinggi menunjukkan model yang lebih baik. Metode ini memungkinkan Anda menggunakan data unik dan spesifik skenario untuk menentukan apakah model sesuai dengan kebutuhan Anda.

Langkah-langkah berikut menyoroti poin-poin utama dari proses ini. Untuk instruksi terperinci, lihat Evaluasi Model.

  1. Siapkan dataset kustom.

    1. Format dataset kustom:

      Untuk menjalankan evaluasi dataset kustom, siapkan data Anda dalam format JSONL. Untuk file contoh, lihat llmuses_general_qa_test.jsonl (76 KB). Formatnya adalah sebagai berikut:

      [{"question": "Apakah benar bahwa Cina menemukan pembuatan kertas?", "answer": "Benar"}]
      [{"question": "Apakah benar bahwa Cina menemukan bubuk mesiu?", "answer": "Benar"}]

      Gunakan question untuk mengidentifikasi kolom pertanyaan dan answer untuk mengidentifikasi kolom jawaban.

    2. Unggah file dataset yang diformat ke OSS. Untuk informasi lebih lanjut, lihat Unggah File ke OSS.

    3. Buat dataset dari file di OSS. Untuk informasi lebih lanjut, lihat Buat Dataset: Dari Layanan Alibaba Cloud.

  2. Pilih model untuk kasus penggunaan Anda.

    Gunakan model sumber terbuka

    Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Jika model mendukung evaluasi, tombol Evaluate akan muncul.

    image

    Gunakan model fine-tuned

    Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Tombol Evaluation akan muncul pada model yang dapat dievaluasi. Fine-tune model yang dapat dievaluasi. Kemudian, di halaman QuickStart > Model Gallery > Job Management > Training Jobs, klik pekerjaan pelatihan yang berhasil. Tombol Evaluate akan muncul di sudut kanan atas.

    image

    Evaluasi model saat ini mendukung semua model AutoModelForCausalLM dari Hugging Face.

  3. Buat dan jalankan Pekerjaan Evaluasi.

    Di halaman produk model, klik Evaluate di sudut kanan atas untuk membuat pekerjaan evaluasi.

    image

    Konfigurasikan parameter utama sebagai berikut:

    Parameter

    Deskripsi

    Konfigurasi Dasar

    Jalur Output Hasil

    Tentukan path OSS tempat hasil evaluasi akhir akan disimpan.

    Konfigurasi Dataset Kustom

    Metode Evaluasi

    Pilih salah satu opsi berikut:

    • Evaluasi Metrik Umum: Menghitung kesamaan teks antara output model dan jawaban referensi menggunakan metrik seperti ROUGE dan BLEU. Cocok untuk skenario dengan jawaban pasti.

    • Evaluasi Model Juri: Menggunakan model juri yang disediakan oleh PAI untuk memberi skor jawaban secara otomatis. Metode ini tidak memerlukan jawaban referensi dan cocok untuk skenario dengan jawaban kompleks atau tidak unik. Hasilnya mencakup skor keseluruhan dan lima sub-skor.

    Token Layanan Penilaian Model

    Saat memilih Evaluasi Model Juri sebagai metode evaluasi, konfigurasikan parameter ini. Anda bisa mendapatkan token dari halaman Model Juri.

    Sumber Dataset

    Pilih dataset yang ada.

    Buat dataset yang disimpan di penyimpanan Alibaba Cloud

    Pilih dataset kustom yang telah Anda buat sebelumnya.

    Konfigurasi Sumber Daya

    Jenis Kelompok Sumber Daya

    Pilih kelompok sumber daya publik, komputasi tujuan umum, atau Sumber daya Lingjun berdasarkan kebutuhan Anda.

    Sumber Daya Pekerjaan

    Jika Anda memilih kelompok sumber daya publik, spesifikasi sumber daya yang sesuai direkomendasikan secara default berdasarkan ukuran model Anda.

    Klik Submit untuk memulai pekerjaan.

  4. Lihat hasil evaluasi.

    Hasil pekerjaan tunggal

    Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, ketika Status pekerjaan evaluasi adalah Succeeded, klik View Report di kolom Operation. Di halaman Custom Dataset Evaluation Results, Anda dapat melihat skor model untuk metrik ROUGE dan BLEU.

    image

    Laporan ini juga memberikan hasil evaluasi rinci untuk setiap entri data dalam file evaluasi.

    Hasil perbandingan multi-pekerjaan

    Di halaman QuickStart > Model Gallery > Job Management > Evaluation Job, pilih pekerjaan evaluasi model yang ingin Anda bandingkan dan klik Compare di sudut kanan atas. Di halaman Custom Dataset Evaluation Results, Anda dapat melihat hasil perbandingan.

    image

    Menafsirkan hasil evaluasi:

    Metrik evaluasi default untuk dataset kustom meliputi: rouge-1-f, rouge-1-p, rouge-1-r, rouge-2-f, rouge-2-p, rouge-2-r, rouge-l-f, rouge-l-p, rouge-l-r, bleu-1, bleu-2, bleu-3, dan bleu-4.

    • Metrik rouge-n menghitung tumpang tindih N-gram (N kata berturut-turut). Rouge-1 dan rouge-2 adalah yang paling umum digunakan, masing-masing sesuai dengan unigram dan bigram. Metrik rouge-l didasarkan pada Longest Common Subsequence (LCS).

    • BLEU (Bilingual Evaluation Understudy) adalah metrik populer lainnya untuk mengevaluasi kualitas terjemahan mesin. Ini menghitung skor dengan mengukur tumpang tindih N-gram antara output terjemahan mesin dan satu set terjemahan referensi. Metrik bleu-n menghitung kesamaan N-gram.

    Hasil evaluasi akhir disimpan ke Path Output Hasil yang Anda tentukan.

Kasus Penggunaan 2: Evaluasi model dengan dataset publik untuk peneliti algoritma

Penelitian algoritma sering bergantung pada dataset publik. Ketika peneliti memilih model sumber terbuka atau fine-tune sebuah model, mereka merujuk pada performanya pada benchmark publik yang otoritatif. Namun, karena banyaknya dataset publik untuk LLM, peneliti sering menghabiskan waktu signifikan memilih dataset yang relevan untuk domain mereka dan mempelajari prosedur evaluasi yang sesuai. Untuk menyederhanakan ini, PAI mengintegrasikan beberapa dataset publik dan sepenuhnya mereplikasi metrik evaluasi resmi untuk masing-masing. Ini memberikan umpan balik akurat tentang performa model dan membantu mempercepat penelitian LLM.

Untuk evaluasi dengan dataset publik, platform evaluasi model PAI mengkategorikan dataset sumber terbuka berdasarkan domain untuk menilai kemampuan komprehensif LLM, seperti matematika, pengetahuan, dan penalaran. Skor yang lebih tinggi menunjukkan model yang lebih baik. Ini adalah metode yang paling umum untuk mengevaluasi LLM.

Langkah-langkah berikut menyoroti poin-poin utama dari proses ini. Untuk instruksi terperinci, lihat Evaluasi Model.

  1. Dataset publik yang didukung:

    PAI saat ini memelihara dataset publik termasuk MMLU, TriviaQA, HellaSwag, GSM8K, C-Eval, CMMLU, dan TruthfulQA. Lebih banyak dataset publik sedang ditambahkan.

    Dataset

    Ukuran

    Volume Data

    Ranah

    MMLU

    166 MB

    14042

    Pengetahuan

    TriviaQA

    14.3 MB

    17944

    Pengetahuan

    C-Eval

    1.55 MB

    12342

    Bahasa Tiongkok

    CMMLU

    1.08 MB

    11582

    Bahasa Tiongkok

    GSM8K

    4.17 MB

    1319

    Matematika

    HellaSwag

    47.5 MB

    10042

    Penalaran

    TruthfulQA

    0.284 MB

    816

    Keamanan

  2. Pilih model yang sesuai untuk kasus penggunaan Anda.

    Gunakan model sumber terbuka

    Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Jika model mendukung evaluasi, tombol Evaluate akan muncul.

    image

    Gunakan model fine-tuned

    Di panel navigasi kiri Konsol PAI, pilih QuickStart > Model Gallery. Arahkan mouse ke kartu model. Tombol Evaluation ditampilkan untuk model yang dapat dievaluasi. Setelah Anda Fine-tune model yang dapat dievaluasi, buka halaman QuickStart > Model Gallery > Job Management > Training Job dan klik pekerjaan pelatihan yang berhasil. Tombol Evaluation kemudian ditampilkan di sudut kanan atas.

    image

    Evaluasi model saat ini mendukung semua model AutoModelForCausalLM dari Hugging Face.

  3. Buat dan jalankan Pekerjaan Evaluasi.

    Di halaman detail model, klik Evaluation di sudut kanan atas untuk membuat pekerjaan evaluasi.

    image

    Parameter

    Deskripsi

    Konfigurasi Dasar

    Path Output Hasil

    Tentukan path OSS tempat hasil evaluasi akhir akan disimpan.

    Konfigurasi Dataset Publik

    Dataset Publik

    Pilih dataset publik.

    Konfigurasi Sumber Daya

    Jenis Kelompok Sumber Daya

    Pilih kelompok sumber daya publik, komputasi tujuan umum, atau Sumber daya Lingjun berdasarkan kebutuhan Anda.

    Sumber Daya Pekerjaan

    Jika Anda memilih kelompok sumber daya publik, spesifikasi sumber daya yang sesuai direkomendasikan secara default berdasarkan ukuran model Anda.

    Klik Submit untuk memulai pekerjaan.

  4. Lihat hasil evaluasi.

    Hasil Pekerjaan Tunggal

    Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, ketika Status pekerjaan evaluasi adalah Succeeded, klik View Report di kolom Operation. Di halaman Public Dataset Evaluation Results, Anda dapat melihat skor model di berbagai ranah dan dataset.

    image

    Hasil perbandingan multi-pekerjaan

    Di halaman QuickStart > Model Gallery > Job Management > Evaluation Jobs, pilih pekerjaan evaluasi model yang ingin Anda bandingkan dan klik Compare di sudut kanan atas. Di halaman Public Dataset Evaluation Results, Anda dapat melihat hasil perbandingan.

    image

    Analisis hasil evaluasi:

    • Grafik di sebelah kiri menunjukkan skor model di berbagai domain kemampuan. Domain kemampuan tunggal mungkin mencakup beberapa dataset. Untuk menghitung skor domain akhir, platform evaluasi model PAI merata-ratakan skor model dari semua dataset dalam domain tersebut.

    • Grafik di sebelah kanan menunjukkan skor model pada dataset publik individu. Untuk informasi tentang ruang lingkup evaluasi setiap dataset publik, lihat Deskripsi Dataset Publik yang Didukung.

    Hasil evaluasi akhir disimpan ke Path Output Hasil yang Anda tentukan.

Referensi

Evaluasi Model