Qwen3 adalah seri model bahasa besar (LLM) terbaru yang dirilis oleh tim Alibaba Cloud Qwen pada 29 April 2024. Seri ini mencakup dua model Mixture-of-Experts (MoE) dan enam model Dense. Berkat pelatihan ekstensif, Qwen3 mencapai terobosan dalam penalaran, pemahaman instruksi, kemampuan agen, serta dukungan multibahasa. Model Gallery Platform for AI (PAI) menyediakan akses ke kedelapan ukuran model tersebut, termasuk versi Base dan FP8-nya, sehingga total tersedia 22 model. Panduan ini menjelaskan cara menerapkan, melakukan fine-tuning, dan mengevaluasi rangkaian model Qwen3 di Model Gallery.
Penerapan model dan pemanggilan
Terapkan model
Bagian ini menjelaskan cara menerapkan model Qwen3-235B-A22B dengan SGLang.
Buka halaman Model Gallery.
Masuk ke Konsol PAI dan pilih wilayah di pojok kiri atas. Anda dapat mengganti wilayah untuk menemukan wilayah yang memiliki sumber daya komputasi yang cukup.
Pada panel navigasi di sebelah kiri, klik Workspace Management, lalu klik nama ruang kerja yang dituju.
Pada panel navigasi kiri, pilih QuickStart > Model Gallery.
Pada halaman Model Gallery, klik kartu model Qwen3-235B-A22B untuk membuka halaman detail model.
Klik Deploy di pojok kanan atas. Konfigurasikan parameter berikut dan gunakan nilai default untuk parameter lainnya agar model diterapkan ke Elastic Algorithm Service (EAS).
Deployment Method: Atur Inference Engine ke SGLang dan Deployment Template ke Single-Node.
Resource Information: Atur Resource Type ke Public Resources. Sistem secara otomatis merekomendasikan tipe instans. Untuk konfigurasi minimum yang diperlukan, lihat Daya komputasi yang dibutuhkan & jumlah token yang didukung.
- Penting
Jika tidak ada tipe instans yang tersedia, artinya inventaris sumber daya publik di wilayah tersebut tidak mencukupi. Pertimbangkan opsi berikut:
Ganti wilayah. Misalnya, wilayah China (Ulanqab) memiliki inventaris sumber daya preemptible Lingjun yang lebih besar, seperti ml.gu7ef.8xlarge-gu100, ml.gu7xf.8xlarge-gu108, ml.gu8xf.8xlarge-gu108, dan ml.gu8tf.8.40xlarge. Karena sumber daya preemptible dapat ditarik kembali, perhatikan penawaran (bid) Anda.
Gunakan kelompok sumber daya EAS. Anda dapat membeli sumber daya EAS spesifikasi khusus dari EAS Dedicated Resources Subscription.

Debug online
Pada halaman Service Details, klik Online Debugging. Contohnya ditunjukkan pada gambar berikut.

Panggil API
Dapatkan titik akhir layanan dan token.
Di Model Gallery > Job Management > Deployment Jobs, klik nama layanan yang telah diterapkan untuk membuka halaman detail layanan.
Klik View Invocation Method untuk melihat Internet Endpoint dan token.

Contoh berikut menunjukkan cara memanggil titik akhir
/v1/chat/completionsuntuk penerapan SGLang.curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<model_name, get from the /v1/models API>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "hello!" } ] }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI ##### Konfigurasi API ##### # Ganti <EAS_ENDPOINT> dengan titik akhir layanan yang diterapkan dan <EAS_TOKEN> dengan token layanan. openai_api_key = "<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) models = client.models.list() model = models.data[0].id print(model) stream = True chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "Hello, please introduce yourself."} ], model=model, max_completion_tokens=2048, stream=stream, ) if stream: for chunk in chat_completion: print(chunk.choices[0].delta.content, end="") else: result = chat_completion.choices[0].message.content print(result)Ganti
<EAS_ENDPOINT>dengan titik akhir layanan Anda dan<EAS_TOKEN>dengan token layanan Anda.
Metode pemanggilan bervariasi tergantung jenis penerapannya. Untuk contoh lainnya, lihat Menerapkan model bahasa besar dan memanggil API.
Integrasikan aplikasi pihak ketiga
Untuk menghubungkan ke Chatbox, Dify, atau Cherry Studio, lihat Integrasikan klien pihak ketiga.
Konfigurasi lanjutan
Anda dapat mengaktifkan fitur lanjutan, seperti menyesuaikan batas token atau mengaktifkan Pemanggilan alat, dengan memodifikasi konfigurasi JSON layanan.
Untuk memodifikasi konfigurasi: Pada halaman penerapan, edit JSON di bagian Service Configuration. Untuk layanan yang sudah diterapkan, Anda harus memperbaruinya untuk mengakses halaman penerapannya.

Ubah batas token
Model Qwen3 secara native mendukung panjang token hingga 32.768. Anda dapat menggunakan teknologi RoPE scaling untuk memperluasnya hingga maksimum 131.072 token, meskipun hal ini mungkin menyebabkan sedikit degradasi performa. Untuk melakukannya, modifikasi bidang containers.script pada file JSON konfigurasi layanan sebagai berikut:
vLLM:
vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072SGLang:
python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'
Uraikan pemanggilan alat
vLLM dan SGLang mendukung penguraian keluaran pemanggilan alat model menjadi pesan terstruktur. Untuk mengaktifkannya, modifikasi bidang containers.script pada file JSON konfigurasi layanan sebagai berikut:
vLLM:
vllm serve ... --enable-auto-tool-choice --tool-call-parser hermesSGLang:
python -m sglang.launch_server ... --tool-call-parser qwen25
Kontrol mode berpikir
Qwen3 menggunakan mode berpikir secara default. Anda dapat mengontrol perilaku ini dengan sakelar keras (untuk sepenuhnya menonaktifkan berpikir) atau sakelar lunak (di mana model mengikuti instruksi pengguna apakah perlu berpikir atau tidak).
Gunakan sakelar lunak /no_think
Contoh badan permintaan:
{
"model": "<MODEL_NAME>",
"messages": [
{
"role": "user",
"content": "/no_think Hello!"
}
],
"max_tokens": 1024
}Gunakan sakelar perangkat keras
Kontrol dengan parameter API (untuk vLLM dan SGLang): Tambahkan parameter
chat_template_kwargske panggilan API Anda. Contoh:curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<MODEL_NAME>", "messages": [ { "role": "user", "content": "Give me a short introduction to large language models." } ], "temperature": 0.7, "top_p": 0.8, "max_tokens": 8192, "presence_penalty": 1.5, "chat_template_kwargs": {"enable_thinking": false} }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI # Ganti <EAS_ENDPOINT> dengan titik akhir layanan yang diterapkan dan <EAS_TOKEN> dengan token layanan. openai_api_key = "<<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) chat_response = client.chat.completions.create( model="<MODEL_NAME>", messages=[ {"role": "user", "content": "Give me a short introduction to large language models."}, ], temperature=0.7, top_p=0.8, presence_penalty=1.5, extra_body={"chat_template_kwargs": {"enable_thinking": False}}, ) print("Chat response:", chat_response)Ganti
<EAS_ENDPOINT>dengan titik akhir layanan Anda,<EAS_TOKEN>dengan token layanan Anda, dan<MODEL_NAME>dengan nama model yang diambil dari API/v1/models.Nonaktifkan dengan memodifikasi konfigurasi layanan (untuk BladeLLM): Gunakan templat percakapan yang mencegah model menghasilkan konten berpikir saat meluncurkan model.
Pada halaman produk model di Model Gallery, periksa apakah tersedia metode untuk menonaktifkan mode berpikir untuk BladeLLM. Misalnya, dengan Qwen3-8B, Anda dapat menonaktifkan mode berpikir dengan memodifikasi bidang
containers.scriptpada file JSON konfigurasi layanan sebagai berikut:blade_llm_server ... --chat_template /model_dir/no_thinking.jinjaBuat templat percakapan kustom, seperti
no_thinking.jinja, pasang dari OSS, dan modifikasi bidangcontainers.scriptpada file JSON konfigurasi layanan.
Uraikan konten berpikir
Untuk mengeluarkan bagian berpikir secara terpisah, modifikasi bidang containers.script pada file JSON konfigurasi layanan sebagai berikut:
vLLM:
vllm serve ... --enable-reasoning --reasoning-parser qwen3SGLang:
python -m sglang.launch_server ... --reasoning-parser deepseek-r1
Fine-tuning model
Model Qwen3-32B, 14B, 8B, 4B, 1,7B, dan 0,6B mendukung Supervised Fine-Tuning (SFT) dengan fine-tuning parameter penuh, LoRA, atau QLoRA, serta pelatihan Generative Rejection-based Preference Optimization (GRPO).
Kirim pekerjaan pelatihan satu-klik untuk membuat model yang disesuaikan dengan skenario bisnis Anda.


Evaluasi model
Untuk petunjuk lengkap tentang evaluasi model, lihat Evaluasi model dan Praktik terbaik untuk evaluasi LLM.
Lampiran: Daya komputasi yang dibutuhkan dan jumlah token yang didukung
Tabel berikut mencantumkan konfigurasi minimum yang diperlukan untuk menerapkan model Qwen3 dan jumlah token maksimum yang didukung pada berbagai framework inferensi dan tipe instans.
Di antara model FP8, hanya Qwen3-235B-A22B yang memiliki kebutuhan daya komputasi lebih rendah dibandingkan versi aslinya. Kebutuhan untuk model FP8 lainnya identik dengan versi non-FP8-nya sehingga tidak dicantumkan dalam tabel ini. Misalnya, untuk mengetahui daya komputasi yang dibutuhkan untuk Qwen3-30B-A3B-FP8, rujuk ke Qwen3-30B-A3B.
Model | Jumlah token maksimum (input + output) | Konfigurasi minimum | |
Penerapan SGLang yang Dipercepat | Penerapan percepatan vLLM | ||
Qwen3-235B-A22B | 32.768 (dengan RoPE scaling: 131.072) | 32.768 (dengan RoPE scaling: 131.072) | 8 × GPU H / GU120 (8 × 96 GB Memori GPU) |
Qwen3-235B-A22B-FP8 | 32.768 (dengan RoPE scaling: 131.072) | 32.768 (dengan RoPE scaling: 131.072) | 4 × GPU H / GU120 (4 × 96 GB Memori GPU) |
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B | 32.768 (dengan RoPE scaling: 131.072) | 32.768 (dengan RoPE scaling: 131.072) | 1 × GPU H / GU120 (96 GB Memori GPU) |
Qwen3-14B Qwen3-14B-Base | 32.768 (dengan RoPE scaling: 131.072) | 32.768 (dengan RoPE scaling: 131.072) | 1 × GPU L / GU60 (48 GB Memori GPU) |
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base | 32.768 (dengan RoPE scaling: 131.072) | 32.768 (dengan RoPE scaling: 131.072) | 1 × A10 / GU30 (24 GB Memori GPU) Penting Model 8B dengan RoPE scaling memerlukan Memori GPU sebesar 48 GB. |
FAQ
T: Bagaimana cara saya mempertahankan konteks percakapan di beberapa panggilan API dengan model yang diterapkan di PAI?
Layanan model yang diterapkan di PAI bersifat tanpa status. Setiap panggilan API bersifat independen, dan server tidak menyimpan konteks antarpermintaan.
Untuk menerapkan percakapan multi-putaran, Anda harus mengelola riwayat percakapan di sisi klien. Pada setiap panggilan API baru, Anda perlu mengirimkan seluruh riwayat percakapan dalam muatan messages. Untuk contohnya, lihat Bagaimana cara menerapkan percakapan multi-putaran?