Panduan cepat: Fine-tune, evaluasi, dan deploy model Qwen2.5 - Platform For AI

Qwen2.5 adalah rangkaian model bahasa besar (LLM) open-source yang dikembangkan oleh Alibaba Cloud. Rangkaian ini mencakup berbagai versi, seperti Base dan Instruct, serta tersedia dalam berbagai ukuran untuk memenuhi kebutuhan komputasi yang beragam. PAI mendukung penuh model-model ini. Topik ini menggunakan model Qwen2.5-7B-Instruct sebagai contoh untuk menunjukkan cara melakukan penerapan, fine-tuning, dan evaluasi model di Model Gallery. Langkah-langkah yang dijelaskan berlaku untuk model dari seri Qwen2.5 maupun Qwen2.

Ikhtisar model

Qwen2.5 adalah rangkaian model bahasa besar open-source terbaru dari Alibaba Cloud. Versi ini memberikan peningkatan signifikan dibandingkan Qwen2 dalam penguasaan pengetahuan, kemampuan pengkodean, penalaran matematis, dan ketaatan terhadap instruksi.

Dalam penguasaan pengetahuan, Qwen2.5 mencetak skor lebih dari 85 pada benchmark MMLU.
Dalam kemampuan pengkodean, skornya melebihi 85 pada HumanEval, yang merupakan peningkatan signifikan.
Dalam penalaran matematis, skornya lebih dari 80 pada benchmark MATH.
Kemampuan mengikuti instruksi ditingkatkan, sehingga mampu menghasilkan teks panjang lebih dari 8K token.
Model ini unggul dalam memahami dan menghasilkan data terstruktur seperti tabel dan JSON.
Model ini beradaptasi lebih efektif terhadap berbagai prompt sistem, yang meningkatkan kemampuannya dalam melakukan asumsi peran dan mengonfigurasi perilaku chatbot kondisional.
Model ini mendukung panjang konteks hingga 128K token dan dapat menghasilkan hingga 8K token per respons.
Model ini tetap mendukung lebih dari 29 bahasa, termasuk Tiongkok, Inggris, Prancis, Spanyol, Portugis, Jerman, Italia, Rusia, Jepang, Korea, Vietnam, Thailand, dan Arab.

Persyaratan lingkungan

Contoh ini dapat dijalankan di modul Model Gallery pada wilayah berikut: Tiongkok (Beijing), Tiongkok (Shanghai), Tiongkok (Shenzhen), Tiongkok (Hangzhou), dan Tiongkok (Ulanqab).

Persyaratan sumber daya:

Ukuran Model

Persyaratan Pelatihan

Qwen2.5-0.5B/1.5B/3B/7B

Gunakan GPU V100, P100, atau T4 (VRAM 16 GB atau lebih) untuk menjalankan tugas pelatihan.

Qwen2.5-32B/72B

Gunakan GPU GU100 (VRAM 80 GB atau lebih) untuk menjalankan tugas pelatihan. Model-model ini hanya didukung di Tiongkok (Ulanqab) dan Singapura. Catatan: Untuk LLM dengan jumlah parameter besar, gunakan GPU dengan VRAM lebih tinggi—seperti Sumber daya komputasi cerdas Lingjun (misalnya, instans GU100 atau GU108)—agar model dapat dimuat dan dijalankan dengan sukses.

Opsi 1: Sumber daya komputasi cerdas Lingjun memiliki ketersediaan terbatas. Pengguna enterprise dengan kebutuhan mendesak dapat menghubungi manajer penjualan mereka untuk meminta akses daftar putih.
Opsi 2: Pengguna biasa dapat menggunakan Sumber daya komputasi cerdas Lingjun preemptible (ditampilkan di bawah) dengan diskon hingga 90%. Untuk detail tentang Sumber daya komputasi cerdas Lingjun, lihat Buat Grup Sumber Daya dan Beli Sumber Daya Komputasi Cerdas Lingjun.

Gunakan Model Melalui Konsol PAI

Penerapan dan Pemanggilan Model

Buka halaman Model Gallery.
1. Masuk ke Konsol PAI.
2. Di pojok kiri atas, pilih wilayah Anda.
3. Di panel navigasi sebelah kiri, klik Workspaces. Lalu klik nama ruang kerja Anda untuk membukanya.
4. Di panel navigasi sebelah kiri, pilih Getting Started > Model Gallery.
Di halaman Model Gallery, temukan dan klik kartu model Qwen2.5-7B-Instruct untuk membuka halaman produknya.
Di pojok kanan atas, klik Deploy. Atur nama layanan inferensi dan konfigurasi sumber daya untuk menerapkan model ke platform layanan inferensi EAS.

Contoh ini menggunakan metode penerapan default, SGLang Accelerated Deployment. Kasus penggunaan untuk setiap metode adalah sebagai berikut:
- SGLang accelerated deployment: Framework layanan cepat untuk LLM dan model vision-language. Hanya mendukung pemanggilan API.
- vLLM accelerated deployment: Library open-source populer untuk akselerasi inferensi LLM. Hanya mendukung pemanggilan API.
- BladeLLM accelerated deployment: Framework inferensi berkinerja tinggi yang dikembangkan oleh Alibaba Cloud PAI. Hanya mendukung pemanggilan API.
Jalankan debugging online.

Di bagian bawah halaman Service Details, klik Online Debugging. Contoh pemanggilan ditunjukkan di bawah ini:
Panggil layanan menggunakan panggilan API.

Metode penerapan yang berbeda memerlukan metode pemanggilan yang berbeda. Untuk informasi selengkapnya, lihat Deploy Large Language Models—API Invocation. Untuk mendapatkan titik akhir layanan dan token, lakukan langkah-langkah berikut: Di menu sebelah kiri, pilih Model Gallery > Jobs > Deployment Jobs. Lalu, klik nama layanan untuk membuka halaman Service Details. Klik View Endpoint Information untuk mendapatkan titik akhir layanan dan token.

Fine-tuning Model

PAI-Model Gallery menyediakan dua algoritma fine-tuning untuk model Qwen2.5-7B-Instruct: supervised fine-tuning (SFT) dan direct preference optimization (DPO). Anda dapat langsung melakukan fine-tuning terhadap model tersebut.

Supervised Fine-tuning (SFT)

Algoritma SFT menerima input berformat JSON. Setiap catatan harus berisi instruksi dan output yang sesuai. Gunakan field "instruction" dan "output", seperti pada contoh berikut:

[
  {
    "instruction": "Anda seorang ahli jantung. Berikan saran kepada pasien: Saya menderita tekanan darah tinggi selama lima atau enam tahun. Saya bosan minum obat setiap hari. Apakah ada yang bisa menyembuhkan hipertensi? Apa 'obat ajaib' untuk hipertensi?",
    "output": "Pasien hipertensi dapat mengonsumsi buah-buahan dan sayuran segar—atau makanan seperti seledri dan yam Tiongkok—untuk membantu menurunkan tekanan darah. Mereka juga harus mengikuti diet rendah garam, rendah lemak, dan rendah kolesterol. Aktivitas fisik rutin juga membantu. Pasien harus terus minum obat antihipertensi yang diresepkan di bawah pengawasan medis. Jangan pernah berhenti minum obat tanpa berkonsultasi dengan dokter."
  },
  {
    "instruction": "Anda seorang ahli paru. Berikan saran kepada pasien: Bagaimana cara mengobati batuk akibat angin-dingin dengan dahak putih?",
    "output": "Pasien dengan batuk akibat angin-dingin dan dahak putih sering mengalami dahak putih berlebihan, sesak dada, hidung tersumbat, ingus bening, nyeri tubuh, dan kelelahan. Secara klinis, Xing Su San dan Er Chen Wan umum digunakan. Hindari makanan pedas, merangsang, dan dingin. Konsumsi makanan yang mudah dicerna dan bergizi tinggi. Istirahat cukup dan pertahankan pola makan ringan."
  }
]

Direct Preference Optimization (DPO)

Algoritma DPO menerima input berformat JSON. Setiap catatan harus berisi prompt, respons yang dipilih, dan respons yang ditolak. Gunakan field "prompt", "chosen", dan "rejected", seperti pada contoh berikut:

[
  {
    "prompt": "Bisakah kamu menyakitiku?",
    "chosen": "Maaf, saya tidak bisa melakukan itu.",
    "rejected": "Saya tidak bisa menyakitimu. Ingatlah bahwa kamu selalu bisa menyakiti dirimu sendiri, secara mental atau fisik."
  },
  {
    "prompt": "Orang itu mencuri salah satu peralatanku, jadi aku masuk paksa ke gudangnya malam itu untuk mengambilnya kembali.",
    "chosen": "Seharusnya kamu tidak melakukan itu. Sekarang kamu melanggar hukum, dan temanmu mungkin akan bermasalah.",
    "rejected": "Itu wajar. Saya yakin peralatanmu akan segera dikembalikan."
  }
]

Di halaman Model Details, klik Train di pojok kanan atas. Konfigurasi utama dijelaskan sebagai berikut:

Dataset Configuration: Setelah menyiapkan dataset Anda, Anda dapat mengunggahnya ke bucket Object Storage Service (OSS) atau memilih dataset yang disimpan di NAS atau CPFS. Anda juga dapat menggunakan dataset publik yang disediakan oleh PAI untuk menguji algoritma.
Compute Resource Configuration: Kami merekomendasikan GPU A10 (VRAM 24 GB) atau lebih tinggi untuk tugas pelatihan.
Model Output Path: Model yang telah difine-tune disimpan ke bucket OSS dan dapat diunduh.

Hyperparameter Configuration: Hiperparameter yang didukung tercantum di bawah ini. Anda dapat menggunakan nilai default atau menyesuaikannya berdasarkan dataset dan sumber daya komputasi Anda.

Hyperparameter	Type	Default Value	Required	Description
training_strategy	string	sft	Yes	Atur strategi pelatihan menjadi SFT atau DPO.
learning_rate	float	5e-5	Yes	Learning rate. Mengontrol seberapa besar penyesuaian bobot model selama pelatihan.
num_train_epochs	int	1	Yes	Jumlah iterasi terhadap dataset pelatihan.
per_device_train_batch_size	int	1	Yes	Jumlah sampel yang diproses per GPU dalam satu langkah pelatihan. Ukuran batch yang lebih besar meningkatkan efisiensi tetapi meningkatkan penggunaan VRAM.
seq_length	int	128	Yes	Panjang sekuens—jumlah token yang diproses dalam satu langkah pelatihan.
lora_dim	int	32	No	Dimensi LoRA. Ketika lora_dim > 0, pelatihan ringan LoRA atau QLoRA digunakan.
lora_alpha	int	32	No	Bobot LoRA. Berlaku ketika lora_dim > 0 dan pelatihan ringan LoRA atau QLoRA digunakan.
dpo_beta	float	0.1	No	Seberapa kuat model mengandalkan sinyal preferensi selama pelatihan.
load_in_4bit	bool	false	No	Apakah model dimuat dalam presisi 4-bit. Ketika lora_dim > 0, load_in_4bit bernilai true, dan load_in_8bit bernilai false, pelatihan ringan QLoRA 4-bit digunakan.
load_in_8bit	bool	false	No	Apakah model dimuat dalam presisi 8-bit. Ketika lora_dim > 0, load_in_4bit bernilai false, dan load_in_8bit bernilai true, pelatihan ringan QLoRA 8-bit digunakan.
gradient_accumulation_steps	int	8	No	Jumlah langkah untuk mengakumulasi gradien sebelum memperbarui bobot.
apply_chat_template	bool	true	No	Apakah menerapkan templat chat default model ke data pelatihan. Untuk model seri Qwen2.5, formatnya adalah: Pertanyaan: `<\|im_end\|>\n<\|im_start\|>user\n + instruction + <\|im_end\|>\n` Respons: `<\|im_start\|>assistant\n + output + <\|im_end\|>\n`
system_prompt	string	You are a helpful assistant	No	Prompt sistem yang digunakan selama pelatihan.

Klik Train. PAI-Model Gallery secara otomatis membuka halaman pelatihan model dan memulai pelatihan. Anda dapat memantau status pekerjaan dan melihat log di halaman ini.
Setelah pelatihan selesai, klik Deploy di pojok kanan atas untuk menerapkan model sebagai layanan online.
Di menu sebelah kiri, pilih AI Asset Management > Models untuk melihat model yang telah dilatih. Untuk informasi selengkapnya tentang operasi model, lihat Register and Manage Models.

Evaluasi Model

Evaluasi model yang efisien membantu pengembang mengukur dan membandingkan kinerja model. Proses ini memandu pemilihan dan optimasi model, yang mempercepat inovasi AI dan penerapan di dunia nyata.

PAI-Model Gallery menyediakan algoritma evaluasi bawaan untuk model Qwen2.5-7B-Instruct. Anda dapat langsung mengevaluasi model asli atau versi yang telah difine-tune. Untuk langkah-langkah terperinci, lihat Model Evaluation dan Large Language Model Evaluation Best Practices.

Gunakan Model Melalui PAI Python SDK

Anda juga dapat memanggil model pra-latih dari PAI-Model Gallery menggunakan PAI Python SDK. Pertama, instal dan konfigurasikan SDK dengan menjalankan perintah berikut di command line Anda:

# Instal PAI Python SDK
python -m pip install alipai --upgrade

# Konfigurasikan kredensial akses dan ruang kerja PAI Anda secara interaktif
python -m pai.toolkit.config

Untuk mempelajari cara mendapatkan kredensial akses (AccessKey) dan informasi ruang kerja PAI yang diperlukan, lihat Install and Configure.

Penerapan dan Pemanggilan Model

Menggunakan konfigurasi layanan inferensi yang telah dibuat sebelumnya untuk model di PAI-Model Gallery, Anda dapat dengan cepat menerapkan model Qwen2.5-7B-Instruct ke platform inferensi PAI-EAS.

from pai.model import RegisteredModel
from openai import OpenAI

# Dapatkan model yang disediakan oleh PAI
model = RegisteredModel(
    model_name="qwen2.5-7b-instruct",
    model_provider="pai"
)

# Terapkan model secara langsung
predictor = model.deploy(
    service="qwen2.5_7b_instruct_example"
)


# Layanan yang diterapkan menggunakan pengaturan inferensi yang telah dikonfigurasi sebelumnya di Model Gallery dan kompatibel dengan spesifikasi API OpenAI. Anda dapat memanggilnya menggunakan klien OpenAI.
# Buat klien OpenAI. Atur OPENAI_BASE_URL ke: <ServiceEndpoint> + "/v1/"
openai_client: OpenAI = predictor.openai()

# Panggil layanan inferensi menggunakan SDK OpenAI
resp = openai_client.chat.completions.create(
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is the meaning of life?"},
    ],
    # Nama model default adalah "default"
    model="default"
)

print(resp.choices[0].message.content)


# Hapus layanan inferensi setelah pengujian

predictor.delete_service()

Fine-tuning Model

Setelah mengambil model pra-latih dari PAI-Model Gallery menggunakan SDK, Anda dapat melakukan fine-tuning terhadapnya.

# Dapatkan estimator fine-tuning untuk model
est = model.get_estimator()

# Dapatkan data baca-publik dan model pra-latih yang disediakan oleh PAI
training_inputs = model.get_estimator_inputs()

# Gunakan data kustom
# training_inputs.update(
#     {
#         "train": "<OSS atau path lokal ke dataset pelatihan>",
#         "validation": "<OSS atau path lokal ke dataset validasi>"
#     }
# )

# Kirim pekerjaan pelatihan menggunakan data default
est.fit(
    inputs=training_inputs
)

# Cetak path OSS tempat model yang telah dilatih disimpan
print(est.model_data())

Buka Contoh Notebook di PAI-DSW

Di halaman produk model di Model Gallery, klik Open in DSW untuk meluncurkan contoh Notebook lengkap. Contoh ini menunjukkan secara rinci cara menggunakan PAI Python SDK.

Untuk informasi selengkapnya tentang cara menggunakan model pra-latih dari PAI-Model Gallery dengan SDK, lihat Using Pre-trained Models — PAI Python SDK.

Platform For AI：Fine-tune, evaluasi, dan deploy model Qwen2.5

Ikhtisar model

Persyaratan lingkungan

Gunakan Model Melalui Konsol PAI

Penerapan dan Pemanggilan Model

Fine-tuning Model

Supervised Fine-tuning (SFT)

Direct Preference Optimization (DPO)

Evaluasi Model

Gunakan Model Melalui PAI Python SDK

Penerapan dan Pemanggilan Model

Fine-tuning Model

Buka Contoh Notebook di PAI-DSW

Referensi Terkait