Ringkasan PAI-EasyDistill: Distilasi Model Ringan untuk AI - Platform For AI - Alibaba Cloud - Platform For AI

Transfer pengetahuan dari model guru yang besar ke model siswa yang lebih kecil untuk mengurangi biaya inferensi sekaligus mempertahankan performa. Model Gallery PAI mendukung distilasi tanpa kode berdasarkan PAI-EasyDistill.

Kasus penggunaan

Skenario yang sesuai:

Penerapan pada perangkat atau edge: Kompres model besar menjadi model ringan untuk lingkungan dengan sumber daya terbatas seperti ponsel dan perangkat IoT.
Optimasi biaya: Saat biaya inferensi untuk layanan online terlalu tinggi, distilasi model yang lebih kecil untuk mengurangi biaya.
Akselerasi inferensi: Untuk aplikasi yang sensitif terhadap latensi, kurangi latensi dan konsumsi sumber daya GPU sekaligus mempertahankan akurasi. Hal ini meningkatkan throughput layanan.
Pewarisan pengetahuan domain: Transfer pengetahuan spesifik domain (seperti kesehatan atau hukum) dari model besar ke model yang lebih kecil dan hemat biaya.

Skenario yang mungkin tidak sesuai:

Fidelitas performa 100%: Distilasi selalu melibatkan beberapa penurunan performa. Jangan gunakan distilasi jika penurunan apa pun tidak dapat diterima.
Tugas yang terlalu sederhana: Untuk tugas sederhana seperti klasifikasi atau pencocokan teks, melatih model kecil secara langsung mungkin lebih hemat biaya daripada distilasi.
Kurangnya data seed berkualitas tinggi: Efektivitas distilasi sangat bergantung pada kualitas data seed. Jika data seed menyimpang dari skenario bisnis aktual, hasilnya mungkin buruk.

Cara kerja

Model Gallery PAI menggunakan distilasi kotak hitam, yang pada dasarnya merupakan augmentasi data generatif. Model guru menghasilkan data berlabel berkualitas tinggi, yang kemudian digunakan untuk Supervised Fine-Tuning (SFT) pada model siswa.

Alur kerjanya sebagai berikut:

Konstruksi data distilasi:
1. Siapkan data dasar: Gunakan dataset publik atau dataset kustom.
2. (Opsional) Sintesis data: PAI-EasyDistill menyediakan kemampuan sintesis dan augmentasi data untuk memperluas atau mengoptimalkan data. Untuk model non-penalaran, lakukan augmentasi instruksi (perluas dan tulis ulang instruksi untuk variasi yang lebih besar) dan optimasi instruksi (sempurnakan frasa agar lebih jelas). Untuk model penalaran, lakukan penyingkatan rantai-pikiran dan perluasan rantai-pikiran.
3. Inferensi model guru: Model guru melakukan inferensi pada data untuk menghasilkan data distilasi guna melatih model siswa.
Pelatihan model siswa: Gunakan dataset distilasi yang dihasilkan untuk melatih model siswa melalui SFT.

Panduan Cepat Mulai

Selesaikan tugas distilasi model dengan dataset publik dan konfigurasi default.

Masuk ke Konsol PAI dan, di panel navigasi kiri, pilih QuickStart > Model Gallery.
Di halaman Models, gunakan filter untuk menemukan model yang mendukung distilasi, seperti Qwen3-32B.

Di filter Supported Operations, pilih Distill. Sistem akan menampilkan semua model guru yang mendukung distilasi.
Klik kartu model untuk membuka halaman detail model. Di pojok kanan atas, klik Distill untuk membuka halaman pembuatan tugas. Konfigurasikan parameter utama berikut dan pertahankan nilai default untuk parameter lainnya.
1. Basic configuration: Atur Model output path ke jalur OSS yang dapat Anda akses, seperti oss://mybucket.oss-cn-hangzhou-internal.aliyuncs.com/model-distillation/model.
  
  Catatan
  Pastikan membuat direktori output terpisah untuk setiap tugas distilasi agar file model tidak tertimpa. Bucket OSS harus berada di wilayah yang sama dengan layanan PAI.
2. Build distillation data:
  - Dataset: Pilih Public Dataset dan pilih Chinese-medical-dialogue-data dari daftar drop-down.
  - Distillation output path: Atur jalur ke jalur OSS yang dapat Anda akses, seperti oss://mybucket.oss-cn-hangzhou-internal.aliyuncs.com/model-distillation/dist-data.
  - Computing Resources: Atur Source ke Public Resources. Pertahankan Instance Type default yang direkomendasikan untuk Job Resource.
3. Student Model Training:
  - Student model config: Pilih Public Model dan pilih model yang lebih kecil dari daftar drop-down, seperti Qwen3-4B.
  - Training Mode: Pertahankan fine-tuning LoRA default.
  - Computing Resources: Atur Source ke Public Resources. Pertahankan Instance Type default yang direkomendasikan untuk Job Resource.
Klik Distill. Di kotak dialog pengingat penagihan yang muncul, klik OK. Halaman akan otomatis dialihkan ke halaman detail tugas, tempat Anda dapat melacak status tugas.

Tugas memerlukan waktu sekitar 20 hingga 40 menit untuk dataset kecil (100 hingga 1.000 entri).

Batasan

Batasan model:
- Model guru: Pilih dari model yang mendukung distilasi di Model Gallery. Model yang didukung tercantum di konsol.
- Model siswa: Gunakan model publik dari Model Gallery atau model kustom. Model kustom terbatas pada LLM yang telah difine-tuning di Model Gallery. Model siswa harus memiliki jumlah parameter lebih sedikit daripada model guru.
Metode distilasi: Hanya distilasi kotak hitam (berbasis SFT) yang saat ini didukung.
Dataset: Dataset distilasi publik dan dataset kustom didukung. Data harus dalam format JSON dan harus mencakup bidang instruction (kolom pertanyaan). Bidang output (kolom output) tidak wajib.
```
[
    {
        "instruction": "What is the capital of China?"
    },
    {
        "instruction": "Please explain what artificial intelligence is."
    }
]
```
Metode pelatihan model siswa: Hanya SFT yang didukung, termasuk LoRA, QLoRA, dan fine-tuning parameter penuh.

Detail konfigurasi

Konstruksi data distilasi

Konfigurasi dataset

Sintesis data adalah fitur opsional yang mentransformasi dataset asli untuk meningkatkan diversitas dan kualitas. Pilih strategi augmentasi data berdasarkan jenis model guru.

Synthesize instruction data (untuk model instruksi umum):

Enhance instructions: Memperluas dan menulis ulang instruksi asli untuk menghasilkan gaya yang lebih beragam.

Input example:
{"instruction": "Create a two-day travel guide for Hangzhou for me."}
Output examples:
{"instruction": "Create a three-day travel guide for Beijing for me."}
{"instruction": "I want to visit Shanghai. Recommend a travel itinerary for me."}

Optimize instructions: Mengoptimalkan pemilihan kata instruksi agar lebih jelas dan mudah dipahami model.

Input example:
{"instruction": "Create a two-day travel guide for Hangzhou for me."}
Output example:
{"instruction": "Please create a two-day travel guide for Hangzhou for me. It should include the itinerary, food recommendations, accommodation suggestions, and the best time to travel."}

Synthesize chain-of-thought data (untuk model inferensi):

Chain-of-thought expansion: Menambahkan langkah penalaran terperinci (Chain of Thought) ke pasangan T&J asli untuk meningkatkan kemampuan penalaran model siswa.

Input example:
{"instruction": "John has 3 apples and eats 1. How many apples are left?", "output": "<think>short chain of thought</think> <output>John has 2 apples left</output>"}
Output example:
{"instruction": "John has 3 apples and eats 1. How many apples are left?", "output": "<think>long chain of thought</think> <output>John has 2 apples left</output>"}

Chain-of-thought abbreviation: Menyederhanakan proses rantai-pikiran yang panjang untuk meningkatkan efisiensi inferensi.

Input example:
{"instruction": "John has 3 apples and eats 1. How many apples are left?", "output": "<think>long chain of thought</think> <output>John has 2 apples left</output>"}
Output example:
{"instruction": "John has 3 apples and eats 1. How many apples are left?", "output": "<think>short chain of thought</think> <output>John has 2 apples left</output>"}

Saat melakukan distilasi untuk pertama kali, jangan aktifkan sintesis data. Hal ini membantu menetapkan garis dasar. Setelah Anda terbiasa dengan prosesnya, Anda dapat mencoba mengaktifkan opsi sintesis berbeda dan mengevaluasi dampaknya terhadap hasil akhir.

Konfigurasi hiperparameter

Hiperparameter ini mengontrol perilaku generasi model guru selama tahap konstruksi data.

Parameter	Deskripsi	Saran penyetelan
Parameter inferensi (diterapkan pada inferensi model guru)
`temperature`	Mengontrol keacakan teks yang dihasilkan. Rentang: [0, 2]. Nilai default: 0,8.	• Tingkatkan (misalnya, > 1,0): Untuk output yang lebih beragam dan kreatif. Cocok untuk skenario yang membutuhkan gaya respons bervariasi. • Turunkan (misalnya, < 0,5): Untuk output yang lebih deterministik dan konservatif. Cocok untuk skenario yang membutuhkan akurasi faktual dan jawaban tunggal yang benar, seperti perhitungan matematika. • Nilai default 0,8 memberikan keseimbangan antara diversitas dan akurasi serta cocok untuk sebagian besar kasus penggunaan umum.
`max_length`	Jumlah maksimum token yang dapat dimasukkan ke model guru, termasuk `instruction`. Kelebihannya akan dipotong. Nilai default: 512.	• Pastikan nilai ini lebih besar daripada panjang input terpanjang dalam dataset untuk mencegah kehilangan informasi. • Catatan: Parameter ini hanya memengaruhi tahap konstruksi data dan berbeda dari parameter `seq_length` yang digunakan dalam pelatihan model siswa selanjutnya.
`max_new_tokens`	Jumlah maksimum token baru (yaitu `output`) yang dapat dihasilkan oleh model guru. Nilai default: 128.	• Atur nilai ini lebih besar daripada panjang rata-rata jawaban yang Anda harapkan dihasilkan model guru. Jika tidak, model akan memotong jawaban. • Untuk tugas yang membutuhkan penalaran terperinci (seperti rantai pikiran) atau generasi teks panjang, pertimbangkan untuk menaikkan nilai ini menjadi 512 atau 1.024. • Peringatan Biaya: Menaikkan nilai ini secara signifikan meningkatkan waktu komputasi dan biaya tahap konstruksi data.
Parameter kontrol fitur (ditampilkan hanya saat augmentasi instruksi diaktifkan)
`num_augment_samples`	Jumlah sampel yang dihasilkan untuk setiap data selama augmentasi instruksi. Nilai default: 0.	• Tingkatkan (misalnya, > 5): Untuk menghasilkan instruksi yang lebih beragam. Hal ini secara signifikan meningkatkan volume data dan biaya komputasi. • Turunkan (misalnya, 1–2): Untuk menghasilkan lebih sedikit sampel augmentasi. Ini cocok untuk dataset besar atau sumber daya komputasi terbatas. • Nilai default 0 berarti tidak dilakukan augmentasi instruksi. Kami merekomendasikan mempertahankan nilai default untuk menjalankan pertama guna menetapkan garis dasar sebelum melakukan penyesuaian.
`num_in_context_samples`	Jumlah sampel in-context yang digunakan selama augmentasi instruksi. Nilai default: 3.	• Tingkatkan (misalnya, > 5): Untuk menghasilkan instruksi yang lebih selaras secara semantik dengan konteks, tetapi hal ini dapat mengurangi diversitas dan meningkatkan beban komputasi. • Turunkan (misalnya, 1–2): Untuk menghasilkan variasi instruksi yang lebih acak, yang meningkatkan diversitas tetapi mungkin mengorbankan relevansi. • Nilai default 3 memberikan keseimbangan antara relevansi semantik dan diversitas serta cocok untuk sebagian besar kasus penggunaan umum.

Konfirmasi data distilasi

Sistem memproses data hasil distilasi setelah pembuatan data selesai.

Auto-confirm (Direkomendasikan): Setelah konstruksi data selesai, sistem secara otomatis memvalidasi dan menyetujui data, lalu memulai pelatihan model siswa. Ini cocok untuk skenario yang menggunakan dataset publik atau Anda yakin terhadap kualitas data.
Manually confirm: Setelah konstruksi data selesai, Anda perlu meninjau kualitas data secara manual. Ini cocok untuk skenario dengan persyaratan kualitas data sangat tinggi atau saat menggunakan dataset kustom untuk pertama kali. Prosedurnya sebagai berikut:
1. Setelah konstruksi data distilasi selesai, status tugas di daftar tugas distilasi berubah menjadi Waiting for distillation data confirmation.
2. Di kolom Tindakan, klik tombol Confirm distillation data. Sistem akan menampilkan kotak dialog konfirmasi.
3. Di kotak dialog, klik Click to view untuk melihat detail dataset distilasi.
  - Jika kualitas data sesuai ekspektasi, klik Confirm untuk melanjutkan pelatihan model siswa.
  - Jika data tidak sesuai ekspektasi, klik Cancel. Tugas akan berhenti pada tahap saat ini.

Pelatihan model siswa

Metode pelatihan

Pilih metode spesifik untuk melakukan SFT pada model siswa.

LoRA (Direkomendasikan): Metode fine-tuning parameter efisien yang secara signifikan mengurangi kebutuhan memori GPU sekaligus mempertahankan performa yang baik.
QLoRA: Versi terkuantisasi dari LoRA yang lebih lanjut mengurangi penggunaan memori GPU. Cocok untuk pelatihan di lingkungan dengan sumber daya lebih terbatas.
Fine-tuning parameter penuh: Memperbarui semua parameter model. Metode ini secara teoretis menghasilkan hasil terbaik tetapi memerlukan sumber daya komputasi dan waktu sangat besar, sehingga biayanya sangat tinggi.

Konfigurasi set validasi

Pilih dataset validasi untuk mengevaluasi performa model selama pelatihan.

Don't configure: Tidak ada validasi selama pelatihan. Ini cocok untuk eksperimen cepat atau skenario dengan volume data kecil.
Auto-split distillation data (Direkomendasikan): Sistem secara otomatis membagi dataset distilasi yang dihasilkan menjadi set pelatihan dan set validasi. Secara default, 5% data digunakan untuk set validasi.
Add validation dataset: Tentukan dataset OSS terpisah sebagai set validasi. Ini cocok untuk skenario dengan set validasi standar.

Konfigurasi hiperparameter

Hiperparameter ini mengontrol proses SFT untuk model siswa.

Parameter	Deskripsi	Saran penyetelan
`learning_rate`	Tingkat pembelajaran, yang mengontrol ukuran langkah pembaruan parameter model. Nilai default: 5e-5.	• Jika loss pelatihan (Loss) menurun lambat, coba tingkatkan tingkat pembelajaran. • Jika Loss berfluktuasi tajam atau tidak konvergen, turunkan tingkat pembelajaran.
`num_train_epochs`	Jumlah epoch pelatihan, yaitu jumlah iterasi proses pelatihan terhadap seluruh dataset. Nilai default: 1.	• Untuk dataset besar, satu hingga tiga epoch biasanya sudah cukup. • Terlalu banyak epoch dapat menyebabkan overfitting.
`per_device_train_batch_size`	Jumlah sampel yang diproses dalam satu langkah pelatihan di setiap GPU. Nilai default: 1.	• Jika memori GPU memungkinkan, menaikkan nilai ini dapat mempercepat dan berpotensi menstabilkan proses pelatihan. • Jika Anda mengalami error kehabisan memori (OOM), turunkan nilai ini terlebih dahulu.
`seq_length`	Panjang urutan maksimum (jumlah token) untuk input ke model siswa. Nilai default: 128.	• Atur nilai ini berdasarkan karakteristik data dan skenario aplikasi Anda. Teks yang lebih panjang memerlukan `seq_length` yang lebih besar. • Menaikkan nilai ini secara signifikan meningkatkan konsumsi memori GPU.

Praktik terbaik dan penyetelan

Strategi optimasi biaya

Pemilihan sumber daya:
- Pengujian/Tugas kecil: Gunakan Public Resources untuk fleksibilitas bayar sesuai penggunaan.
- Produksi/Tugas prioritas tinggi: Gunakan kuota sumber daya untuk memastikan stabilitas sumber daya dan pengendalian biaya.
- Tugas sensitif biaya/Dapat mentolerir kesalahan: Coba sumber daya preemptible untuk mendapatkan daya komputasi dengan harga lebih rendah, tetapi Anda harus menerima risiko bahwa tugas dapat terganggu.
Mulai dengan dataset kecil: Sebelum melakukan distilasi skala besar, jalankan proses dengan sebagian kecil data (100 hingga 1.000 entri). Hal ini memverifikasi bahwa konfigurasi sudah benar dan menghindari pemborosan sumber daya komputasi.
Optimalkan dataset: Dataset seed yang lebih kecil namun berkualitas tinggi mengurangi beban inferensi model guru dan waktu pelatihan model siswa.
Pilih QLoRA untuk pelatihan: QLoRA secara signifikan mengurangi kebutuhan memori GPU dengan melatih model terkuantisasi. Hal ini memungkinkan Anda melatih pada GPU spesifikasi lebih rendah (dan lebih murah).
Tentukan waktu proses yang wajar: Tetapkan Maximum Running Time yang wajar untuk tugas guna mencegah tugas berjalan terlalu lama dan menimbulkan biaya tidak perlu akibat masalah tak terduga.

Panduan penyetelan performa

Kualitas data adalah kunci: Model guru menetapkan batas atas distilasi, tetapi kualitas data menetapkan batas bawah. Pastikan dataset mentah mencakup skenario bisnis Anda, memiliki instruksi yang jelas, dan berisi konten beragam.
Penyetelan hiperparameter:
- Jika loss pelatihan model siswa tidak menurun atau divergen, prioritaskan menurunkan tingkat pembelajaran (learning_rate).
- Jika Anda mengalami error kehabisan memori (OOM), prioritaskan menurunkan ukuran batch (per_device_train_batch_size) atau panjang urutan (seq_length).
Monitor pemanfaatan GPU: Di Task Monitoring, periksa pemanfaatan GPU. Jika pemanfaatan terlalu rendah, berarti sumber daya GPU tidak dimanfaatkan secara optimal. Anda dapat menaikkan per_device_train_batch_size untuk meningkatkan efisiensi.

Evaluasi performa

Setelah distilasi, evaluasi performa model siswa.

Terapkan model: Di halaman detail tugas distilasi, klik tombol Deploy di pojok kanan atas untuk menerapkan model siswa hasil distilasi sebagai layanan inferensi online.
Evaluasi komparatif: Gunakan evaluasi model PAI untuk membandingkan metrik performa (seperti akurasi dan BLEU) model guru dan siswa pada set evaluasi yang sama guna mengkuantifikasi penurunan performa.
Validasi produksi: Sebelum rilis resmi, lakukan uji grayscale skala kecil untuk membandingkan kecepatan inferensi, penggunaan sumber daya, dan dampak bisnis model sebelum dan setelah distilasi dalam skenario bisnis nyata.

FAQ

Q: Pemilihan model guru dan siswa

Model guru: Pilih model berparameter besar yang berkinerja baik dalam skenario bisnis Anda. Lebih banyak parameter umumnya berarti lebih banyak pengetahuan dan potensi distilasi lebih tinggi.
Model siswa: Pilih model dari seri yang sama dengan model guru tetapi dengan parameter lebih sedikit. Misalnya, distilasi dari Qwen-30B ke Qwen-8B. Hal ini memastikan kompatibilitas arsitektur dan memaksimalkan efisiensi transfer pengetahuan.

Q: Durasi tugas distilasi

Durasi tergantung pada ukuran dataset, skala model, metode pelatihan, dan sumber daya komputasi. Tugas dengan dataset kecil (beberapa ribu entri) dan model berukuran sedang (7B–14B) biasanya memerlukan waktu puluhan menit hingga beberapa jam.

Q: Melanjutkan tugas yang terganggu

Tidak. Jika tugas terganggu karena mencapai Maximum Running Time yang dikonfigurasi, tugas tersebut gagal dan tidak dapat dilanjutkan. Analisis log tugas untuk menentukan apakah waktu proses lambat disebabkan oleh sumber daya tidak mencukupi atau batas waktu terlalu singkat. Kemudian tingkatkan waktu maksimum atau gunakan sumber daya spesifikasi lebih tinggi dan kirim ulang.

Q: Mengatasi error `CUDA out of memory`

Ini adalah error kehabisan memori GPU yang khas. Pecahkan masalah sebagai berikut:

Turunkan ukuran batch: Di konfigurasi Student model training, temukan bagian Hyperparameters. Kurangi separuh nilai per_device_train_batch_size (misalnya, dari 2 menjadi 1) dan coba lagi.
Ganti metode pelatihan: Jika menurunkan ukuran batch tidak berhasil, kembali ke halaman konfigurasi dan ganti Training Method dari LoRA atau Full-parameter fine-tuning ke QLoRA. QLoRA dapat secara signifikan mengurangi penggunaan memori GPU.
Tingkatkan spesifikasi GPU: Jika metode sebelumnya tidak berhasil, skala model dan data memerlukan perangkat keras spesifikasi lebih tinggi. Di bagian Computing Resources, pilih GPU dengan memori lebih besar.

Kasus penggunaan

Cara kerja

Panduan Cepat Mulai

Batasan

Detail konfigurasi

Konstruksi data distilasi

Konfigurasi dataset

Konfigurasi hiperparameter

Konfirmasi data distilasi

Pelatihan model siswa

Metode pelatihan

Konfigurasi set validasi

Konfigurasi hiperparameter

Praktik terbaik dan penyetelan

Strategi optimasi biaya

Panduan penyetelan performa

Evaluasi performa

FAQ

Q: Pemilihan model guru dan siswa

Q: Durasi tugas distilasi

Q: Melanjutkan tugas yang terganggu

Q: Mengatasi error CUDA out of memory

Q: Mengatasi error `CUDA out of memory`