Terapkan, fine-tune, dan evaluasi model Qwen3 di Model Gallery. Seri Qwen3 mencakup model MoE dan model padat dalam delapan ukuran.
Deploy and invoke a model
Deploy a model
Contoh ini menerapkan model Qwen3-235B-A22B dengan SGLang.
-
Buka halaman Model Gallery.
-
Login ke PAI console. Di pojok kiri atas, pilih Wilayah. Ganti wilayah untuk menemukan sumber daya komputasi yang tersedia.
-
Di panel navigasi sebelah kiri, pilih Workspaces dan klik ruang kerja target Anda.
-
Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.
-
-
Di halaman Model Gallery, klik kartu model Qwen3-235B-A22B untuk membuka halaman detail model.
-
Di pojok kanan atas, klik Deploy. Konfigurasikan parameter berikut dan gunakan nilai default untuk parameter lainnya.
-
Deployment Method: Atur Inference Engine ke SGLang dan Deployment Template ke Single-Node.
-
Resource Information: Untuk Resource Type, pilih public resource. Sistem akan merekomendasikan tipe instans yang sesuai. Untuk konfigurasi minimum yang diperlukan, lihat Lampiran: Sumber daya komputasi yang diperlukan dan jumlah token yang didukung.
PentingJika tidak ada spesifikasi sumber daya yang tersedia, inventaris public resource di wilayah saat ini tidak mencukupi. Coba opsi berikut:
-
Switch regions. China (Ulanqab) memiliki inventaris sumber daya preemptible Lingjun yang lebih besar, seperti ml.gu7ef.8xlarge-gu100, ml.gu7xf.8xlarge-gu108, ml.gu8xf.8xlarge-gu108, dan ml.gu8tf.8.40xlarge. Sumber daya preemptible dapat ditarik kembali. Tetapkan penawaran Anda dengan hati-hati.
-
Gunakan kelompok sumber daya EAS. Buka atau EAS Dedicated Resources Subscription untuk membeli sumber daya EAS khusus.
-
-
Debug online
Di halaman Service details, klik debugging online di bagian bawah. Contoh:

Invoke the API
-
Dapatkan titik akhir layanan dan token:
-
Di panel navigasi sebelah kiri, pilih Model Gallery > Job Management > Deployment Jobs dan klik nama layanan untuk membuka halaman detail layanan.
-
Klik View Call Information untuk menemukan titik akhir internet dan token.

-
-
Contoh berikut memanggil API chat
/v1/chat/completionsuntuk layanan yang diterapkan dengan SGLang.curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<model_name, obtained from the /v1/models API>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "hello!" } ] }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI ##### Konfigurasi API ##### # Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan. openai_api_key = "<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) models = client.models.list() model = models.data[0].id print(model) stream = True chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "你好,请介绍一下你自己。"} ], model=model, max_completion_tokens=2048, stream=stream, ) if stream: for chunk in chat_completion: print(chunk.choices[0].delta.content, end="") else: result = chat_completion.choices[0].message.content print(result)Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.
Metode invokasi bervariasi tergantung pada metode penerapannya. Untuk contoh selengkapnya, lihat Menginvokasi API untuk layanan LLM yang diterapkan.
Third-party integration
Untuk terhubung ke Chatbox, Dify, atau Cherry Studio, lihat Integrasi dengan klien pihak ketiga.
Advanced configuration
Edit konfigurasi JSON untuk mengaktifkan fitur lanjutan, seperti menyesuaikan batas token dan mengaktifkan tool calling.
Prosedur: Di halaman deployment, edit JSON di bagian Service Configuration. Jika layanan sudah diterapkan, perbarui untuk kembali ke halaman deployment.

Modify token limit
Model Qwen3 secara native mendukung 32.768 token. Skala RoPE memperluas maksimum hingga 131.072, meskipun performa mungkin sedikit menurun. Untuk mengaktifkannya, modifikasi bidang containers.script dalam JSON konfigurasi layanan:
-
vLLM:
vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072 -
SGLang:
python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'
Parse tool calls
vLLM dan SGLang mendukung penguraian konten tool calling menjadi pesan terstruktur. Untuk mengaktifkannya, modifikasi bidang containers.script dalam JSON konfigurasi layanan:
-
vLLM:
vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes -
SGLang:
python -m sglang.launch_server ... --tool-call-parser qwen25
Control thinking mode
Qwen3 menggunakan thinking mode secara default. Gunakan hard switch untuk menonaktifkan thinking sepenuhnya, atau soft switch yang memungkinkan model mengikuti instruksi pengguna apakah akan berpikir atau tidak.
Use a soft switch with /no_think
Contoh badan permintaan:
{
"model": "<MODEL_NAME>",
"messages": [
{
"role": "user",
"content": "/no_think Hello!"
}
],
"max_tokens": 1024
}
Hard switch
-
Control by using API parameters (untuk vLLM dan SGLang): Tambahkan parameter
chat_template_kwargske pemanggilan API. Contoh:curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<MODEL_NAME>", "messages": [ { "role": "user", "content": "Give me a short introduction to large language models." } ], "temperature": 0.7, "top_p": 0.8, "max_tokens": 8192, "presence_penalty": 1.5, "chat_template_kwargs": {"enable_thinking": false} }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI # # Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan. openai_api_key = "<<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) chat_response = client.chat.completions.create( model="<MODEL_NAME>", messages=[ {"role": "user", "content": "Give me a short introduction to large language models."}, ], temperature=0.7, top_p=0.8, presence_penalty=1.5, extra_body={"chat_template_kwargs": {"enable_thinking": False}}, ) print("Chat response:", chat_response)Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan. Ganti <MODEL_NAME> dengan nama model aktual, yang tersedia dari API
/v1/models. -
Disable by modifying the service configuration (untuk BladeLLM): Gunakan templat chat yang mencegah model menghasilkan konten thinking saat startup.
-
Di halaman pengantar model di Model Gallery, periksa metode untuk menonaktifkan thinking mode untuk BladeLLM. Misalnya, dengan Qwen3-8B, Anda dapat menonaktifkan thinking mode dengan memodifikasi bidang
containers.scriptdalam file JSON konfigurasi layanan sebagai berikut:blade_llm_server ... --chat_template /model_dir/no_thinking.jinja -
Buat sendiri templat chat Anda, seperti
no_thinking.jinja, pasang dari OSS, dan modifikasi bidangcontainers.scriptdalam file JSON konfigurasi layanan.
-
Parse thinking content
Untuk mengeluarkan bagian thinking dari tanggapan secara terpisah, modifikasi bidang containers.script dalam JSON konfigurasi layanan:
-
vLLM:
vllm serve ... --enable-reasoning --reasoning-parser qwen3 -
SGLang:
python -m sglang.launch_server ... --reasoning-parser deepseek-r1
Fine-tune a model
-
Qwen3-32B, 14B, 8B, 4B, 1,7B, dan 0,6B mendukung SFT (fine-tuning parameter penuh, LoRA, dan QLoRA) serta pelatihan GRPO.
-
Kirim pekerjaan pelatihan dengan satu klik untuk melatih model kustom sesuai skenario bisnis Anda.


Evaluate a model
Untuk petunjuk evaluasi model, lihat Model evaluation dan Best practices for LLM evaluation.
Lampiran: Sumber daya komputasi yang diperlukan dan jumlah token yang didukung
Tabel berikut mencantumkan konfigurasi minimum untuk menerapkan model Qwen3 dan jumlah token maksimum yang didukung oleh berbagai framework inferensi pada tipe instans yang berbeda.
Di antara model FP8, hanya Qwen3-235B-A22B-FP8 yang memerlukan sumber daya komputasi lebih sedikit dibandingkan versi aslinya. Model FP8 lainnya memerlukan sumber daya yang sama dengan versi non-FP8-nya dan tidak dicantumkan secara terpisah. Misalnya, untuk sumber daya yang diperlukan oleh Qwen3-30B-A3B-FP8, lihat Qwen3-30B-A3B.
|
Model |
Jumlah token maksimum (input + output) |
Konfigurasi minimum |
|
|
SGLang |
vLLM |
||
|
Qwen3-235B-A22B |
32.768 (dengan RoPE scaling: 131.072) |
32.768 (dengan RoPE scaling: 131.072) |
8 × GPU H / GU120 (8 × 96 GB Memori GPU) |
|
Qwen3-235B-A22B-FP8 |
32.768 (dengan RoPE scaling: 131.072) |
32.768 (dengan RoPE scaling: 131.072) |
4 × GPU H / GU120 (4 × 96 GB Memori GPU) |
|
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B |
32.768 (dengan RoPE scaling: 131.072) |
32.768 (dengan RoPE scaling: 131.072) |
1 × GPU H / GU120 (96 GB Memori GPU) |
|
Qwen3-14B Qwen3-14B-Base |
32.768 (dengan RoPE scaling: 131.072) |
32.768 (dengan RoPE scaling: 131.072) |
1 × GPU L / GU60 (48 GB Memori GPU) |
|
Qwen3-8B Qwen3-4B Qwen3-1,7B Qwen3-0,6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1,7B-Base Qwen3-0.6B-Base |
32.768 (dengan RoPE scaling: 131.072) |
32.768 (dengan RoPE scaling: 131.072) |
1 × A10 / GU30 (24 GB Memori GPU) Penting
Model 8B dengan RoPE scaling memerlukan 48 GB Memori GPU. |
FAQ
Q: Apakah layanan yang diterapkan di PAI mendukung konteks sesi?
Tidak. API layanan model yang diterapkan di PAI bersifat tanpa status. Setiap pemanggilan bersifat independen, dan server tidak menyimpan konteks atau status sesi antar permintaan.
Untuk mengimplementasikan percakapan multi-putaran, klien harus menyimpan riwayat percakapan dan menyertakannya dalam permintaan API berikutnya. Untuk contohnya, lihat How do I implement a multi-turn conversation?