Qwen3 adalah seri model bahasa besar (LLM) terbaru dari tim Qwen Alibaba Cloud yang dirilis pada 29 April 2025. Seri ini mencakup dua model Mixture-of-Experts (MoE) dan enam model Dense. Model-model tersebut telah menjalani pelatihan ekstensif, menghasilkan peningkatan signifikan dalam inferensi, pemahaman instruksi, kemampuan agen, serta dukungan multibahasa. PAI-Model Gallery menyediakan kedelapan ukuran model tersebut, termasuk versi Base dan 8-bit floating point (FP8), sehingga total tersedia 22 model. Topik ini menjelaskan cara menerapkan, melakukan fine-tuning, dan mengevaluasi model tersebut di Model Gallery.
Penyebaran dan pemanggilan model
Penyebaran model
Bagian ini memberikan contoh penerapan model Qwen3-235B-A22B dengan SGLang.
-
Buka halaman Model Gallery.
-
Masuk ke PAI console. Di pojok kiri atas, pilih Wilayah yang memiliki sumber daya komputasi tersedia.
-
Di panel navigasi kiri, pilih Workspace List, lalu klik nama ruang kerja yang ingin Anda masuki.
-
Di panel navigasi kiri, pilih QuickStart > Model Gallery.
-
-
Di halaman Model Gallery, temukan dan klik kartu model Qwen3-235B-A22B untuk melihat detail model.
-
Di pojok kanan atas, klik Deploy. Konfigurasikan parameter berikut dan pertahankan pengaturan default untuk parameter lainnya agar model diterapkan ke platform layanan inferensi PAI-EAS.
-
Deployment Method: Atur Inference Engine ke SGLang dan Deployment Template ke Single Machine.
-
Resource Information: Untuk Resource Type, pilih Public Resources. Spesifikasi yang direkomendasikan telah disediakan. Untuk konfigurasi minimum yang dibutuhkan oleh model, lihat Daya komputasi yang dibutuhkan dan jumlah token yang didukung untuk penerapan.
PentingJika tidak ada spesifikasi sumber daya yang tersedia, berarti sumber daya publik di wilayah tersebut sedang habis. Anda dapat mencoba solusi berikut:
-
Ganti wilayah. Misalnya, wilayah China (Ulanqab) memiliki stok besar sumber daya preemptible Lingjun (ml.gu7ef.8xlarge-gu100, ml.gu7xf.8xlarge-gu108, ml.gu8xf.8xlarge-gu108, ml.gu8tf.8.40xlarge). Sumber daya preemptible dapat ditarik kembali, jadi pantau penawaran Anda.
-
Gunakan kelompok sumber daya EAS. Anda dapat membuka EAS Subscription for Dedicated Resources untuk membeli sumber daya EAS khusus.
-
-
Debugging online
Di bagian bawah halaman Service Details, klik Online Debugging, seperti yang ditunjukkan pada gambar berikut.

Pemanggilan API
-
Ambil titik akhir layanan dan token.
-
Buka Model Gallery > Task Management > Deployment. Klik nama layanan yang telah diterapkan untuk melihat detailnya.
-
Klik View Endpoint Information untuk mendapatkan Internet Endpoint dan token.

-
-
Contoh berikut menunjukkan cara memanggil API chat
/v1/chat/completionsuntuk penerapan SGLang.curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<Model name, obtained from the '/v1/models' API>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "hello!" } ] }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI ##### Konfigurasi API ##### # Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan. openai_api_key = "<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) models = client.models.list() model = models.data[0].id print(model) stream = True chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "Hello, please introduce yourself."} ], model=model, max_completion_tokens=2048, stream=stream, ) if stream: for chunk in chat_completion: print(chunk.choices[0].delta.content, end="") else: result = chat_completion.choices[0].message.content print(result)Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.
Metode pemanggilan bervariasi tergantung pada metode penerapan. Untuk informasi selengkapnya tentang pemanggilan API, lihat Pemanggilan API LLM.
Integrasi aplikasi pihak ketiga
Untuk menghubungkan ke Chatbox, Dify, atau Cherry Studio, lihat Integrasi klien pihak ketiga.
Konfigurasi lanjutan
Anda dapat memodifikasi konfigurasi JSON layanan untuk mengaktifkan fitur lanjutan, seperti menyesuaikan batas token atau mengaktifkan tool calling (Function Calling).
Prosedur: Di halaman penerapan, buka bagian Service Configuration dan edit JSON-nya. Jika layanan sudah diterapkan, perbarui untuk mengakses halaman penerapan.

Ubah batas token
Model Qwen3 secara native mendukung panjang token sebesar 32.768. Anda dapat menggunakan teknologi RoPE scaling untuk mendukung panjang token maksimum hingga 131.072, tetapi hal ini dapat menyebabkan penurunan performa tertentu. Untuk melakukannya, ubah bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:
-
vLLM:
vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072 -
SGLang:
python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'
Penguraian pemanggilan alat
vLLM dan SGLang mendukung penguraian konten pemanggilan alat yang dihasilkan model menjadi pesan terstruktur. Untuk mengaktifkannya, ubah bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:
-
vLLM:
vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes -
SGLang:
python -m sglang.launch_server ... --tool-call-parser qwen25
Kontrol mode berpikir
Qwen3 menggunakan mode berpikir secara default. Anda dapat mengontrol fitur ini dengan sakelar keras untuk sepenuhnya menonaktifkan berpikir atau sakelar lunak di mana model mengikuti instruksi pengguna apakah akan berpikir atau tidak.
Gunakan sakelar lunak /no_think
Kode berikut menyediakan contoh badan permintaan:
{
"model": "<MODEL_NAME>",
"messages": [
{
"role": "user",
"content": "/no_think Hello!"
}
],
"max_tokens": 1024
}
Gunakan sakelar keras
-
Kontrol dengan parameter API (untuk vLLM dan SGLang): Tambahkan parameter
chat_template_kwargske pemanggilan API. Kode berikut memberikan contohnya:curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<MODEL_NAME>", "messages": [ { "role": "user", "content": "Give me a short introduction to large language models." } ], "temperature": 0.7, "top_p": 0.8, "max_tokens": 8192, "presence_penalty": 1.5, "chat_template_kwargs": {"enable_thinking": false} }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI # # Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan. openai_api_key = "<<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) chat_response = client.chat.completions.create( model="<MODEL_NAME>", messages=[ {"role": "user", "content": "Give me a short introduction to large language models."}, ], temperature=0.7, top_p=0.8, presence_penalty=1.5, extra_body={"chat_template_kwargs": {"enable_thinking": False}}, ) print("Chat response:", chat_response)Ganti <EAS_ENDPOINT> dengan titik akhir layanan, <EAS_TOKEN> dengan token layanan, dan <MODEL_NAME> dengan nama model aktual yang diambil dari API
/v1/models. -
Nonaktifkan dengan memodifikasi konfigurasi layanan (untuk BladeLLM): Anda dapat menggunakan templat chat yang mencegah model menghasilkan konten berpikir saat model dimulai.
-
Di halaman perkenalan model di Model Gallery, periksa apakah tersedia metode untuk menonaktifkan mode berpikir untuk BladeLLM. Misalnya, dengan Qwen3-8B, Anda dapat menonaktifkan mode berpikir dengan memodifikasi bidang
containers.scriptdalam file JSON konfigurasi layanan sebagai berikut:blade_llm_server ... --chat_template /model_dir/no_thinking.jinja -
Anda dapat membuat templat chat sendiri, seperti
no_thinking.jinja, memasangnya dari OSS untuk dibaca, dan memodifikasi bidangcontainers.scriptdalam file JSON konfigurasi layanan.
-
Penguraian konten berpikir
Untuk mengeluarkan bagian "berpikir" secara terpisah, ubah bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:
-
vLLM:
vllm serve ... --enable-reasoning --reasoning-parser qwen3 -
SGLang:
python -m sglang.launch_server ... --reasoning-parser deepseek-r1
Fine-tuning model
-
Model Qwen3-32B, 14B, 8B, 4B, 1.7B, dan 0.6B mendukung Supervised Fine-Tuning (SFT) (full-parameter, LoRA, atau QLoRA) dan pelatihan GRPO.
-
Anda dapat mengirimkan tugas pelatihan dengan satu klik untuk melatih model sesuai skenario bisnis Anda.


Evaluasi model
Untuk petunjuk lengkap tentang evaluasi model, lihat Evaluasi model dan Praktik terbaik evaluasi LLM.
Lampiran: Daya komputasi yang dibutuhkan dan jumlah token yang didukung untuk penerapan
Tabel berikut mencantumkan konfigurasi minimum yang dibutuhkan untuk penerapan Qwen3 dan jumlah maksimum token yang didukung pada framework inferensi berbeda ketika menggunakan berbagai tipe instans.
Di antara model FP8, hanya model Qwen3-235B-A22B yang memiliki persyaratan daya komputasi lebih rendah dibandingkan model aslinya. Persyaratan daya komputasi untuk model FP8 lainnya sama dengan model non-FP8-nya, sehingga tidak dicantumkan dalam tabel. Misalnya, untuk mengetahui daya komputasi yang dibutuhkan oleh Qwen3-30B-A3B-FP8, rujuk ke Qwen3-30B-A3B.
|
Model |
Jumlah maksimum token yang didukung (input + output) |
Konfigurasi minimum |
|
|
Penerapan dipercepat SGLang |
vLLM accelerated deployment |
||
|
Qwen3-235B-A22B |
32768 (dengan RoPE scaling: 131072) |
32768 (dengan RoPE scaling: 131072) |
8 × GPU H / GU120 (8 × 96 GB VRAM) |
|
Qwen3-235B-A22B-FP8 |
32768 (dengan RoPE scaling: 131072) |
32768 (dengan RoPE scaling: 131072) |
4 × GPU H / GU120 (4 × 96 GB VRAM) |
|
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B |
32768 (dengan RoPE scaling: 131072) |
32768 (dengan RoPE scaling: 131072) |
1 × GPU H / GU120 (96 GB VRAM) |
|
Qwen3-14B Qwen3-14B-Base |
32768 (dengan RoPE scaling: 131072) |
32768 (dengan RoPE scaling: 131072) |
1 × GPU L / GU60 (48 GB VRAM) |
|
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base |
32768 (dengan RoPE scaling: 131072) |
32768 (dengan RoPE scaling: 131072) |
1 × A10 / GU30 (24 GB VRAM) Penting
Model 8B membutuhkan VRAM 48 GB saat RoPE scaling diaktifkan. |
FAQ
T: Apakah layanan model yang diterapkan di PAI mendukung fungsionalitas sesi (mempertahankan konteks antar beberapa permintaan)?
Tidak. API layanan model yang diterapkan di PAI bersifat tanpa status. Setiap pemanggilan bersifat independen, dan server tidak menyimpan konteks atau status sesi apa pun antar permintaan.
Untuk mengimplementasikan percakapan multi-putaran, klien harus menyimpan riwayat percakapan dan menyertakannya dalam permintaan pemanggilan model berikutnya. Untuk contoh permintaan, lihat Bagaimana cara mengimplementasikan percakapan multi-putaran?