Panduan Cepat Mulai: Terapkan, fine-tune, dan evaluasi model Qwen3 - Platform For AI

Qwen3 adalah seri model bahasa besar (LLM) terbaru dari tim Qwen Alibaba Cloud yang dirilis pada 29 April 2025. Seri ini mencakup dua model Mixture-of-Experts (MoE) dan enam model Dense. Model-model tersebut telah menjalani pelatihan ekstensif, menghasilkan peningkatan signifikan dalam inferensi, pemahaman instruksi, kemampuan agen, serta dukungan multibahasa. PAI-Model Gallery menyediakan kedelapan ukuran model tersebut, termasuk versi Base dan 8-bit floating point (FP8), sehingga total tersedia 22 model. Topik ini menjelaskan cara menerapkan, melakukan fine-tuning, dan mengevaluasi model tersebut di Model Gallery.

Penyebaran dan pemanggilan model

Penyebaran model

Bagian ini memberikan contoh penerapan model Qwen3-235B-A22B dengan SGLang.

Buka halaman Model Gallery.
1. Masuk ke PAI console. Di pojok kiri atas, pilih Wilayah yang memiliki sumber daya komputasi tersedia.
2. Di panel navigasi kiri, pilih Workspace List, lalu klik nama ruang kerja yang ingin Anda masuki.
3. Di panel navigasi kiri, pilih QuickStart > Model Gallery.
Di halaman Model Gallery, temukan dan klik kartu model Qwen3-235B-A22B untuk melihat detail model.
Di pojok kanan atas, klik Deploy. Konfigurasikan parameter berikut dan pertahankan pengaturan default untuk parameter lainnya agar model diterapkan ke platform layanan inferensi PAI-EAS.
- Deployment Method: Atur Inference Engine ke SGLang dan Deployment Template ke Single Machine.
- Resource Information: Untuk Resource Type, pilih Public Resources. Spesifikasi yang direkomendasikan telah disediakan. Untuk konfigurasi minimum yang dibutuhkan oleh model, lihat Daya komputasi yang dibutuhkan dan jumlah token yang didukung untuk penerapan.
  Penting
  Jika tidak ada spesifikasi sumber daya yang tersedia, berarti sumber daya publik di wilayah tersebut sedang habis. Anda dapat mencoba solusi berikut:
  - Ganti wilayah. Misalnya, wilayah China (Ulanqab) memiliki stok besar sumber daya preemptible Lingjun (ml.gu7ef.8xlarge-gu100, ml.gu7xf.8xlarge-gu108, ml.gu8xf.8xlarge-gu108, ml.gu8tf.8.40xlarge). Sumber daya preemptible dapat ditarik kembali, jadi pantau penawaran Anda.
  - Gunakan kelompok sumber daya EAS. Anda dapat membuka EAS Subscription for Dedicated Resources untuk membeli sumber daya EAS khusus.

Debugging online

Di bagian bawah halaman Service Details, klik Online Debugging, seperti yang ditunjukkan pada gambar berikut.

Pemanggilan API

Ambil titik akhir layanan dan token.
1. Buka Model Gallery > Task Management > Deployment. Klik nama layanan yang telah diterapkan untuk melihat detailnya.
2. Klik View Endpoint Information untuk mendapatkan Internet Endpoint dan token.

Contoh berikut menunjukkan cara memanggil API chat /v1/chat/completions untuk penerapan SGLang.

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<Model name, obtained from the '/v1/models' API>",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
        ]
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI

##### Konfigurasi API #####
# Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.
openai_api_key = "<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

models = client.models.list()
model = models.data[0].id
print(model)

stream = True
chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "Hello, please introduce yourself."}
    ],
    model=model,
    max_completion_tokens=2048,
    stream=stream,
)

if stream:
    for chunk in chat_completion:
        print(chunk.choices[0].delta.content, end="")
else:
    result = chat_completion.choices[0].message.content
    print(result)

Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.

Metode pemanggilan bervariasi tergantung pada metode penerapan. Untuk informasi selengkapnya tentang pemanggilan API, lihat Pemanggilan API LLM.

Integrasi aplikasi pihak ketiga

Untuk menghubungkan ke Chatbox, Dify, atau Cherry Studio, lihat Integrasi klien pihak ketiga.

Konfigurasi lanjutan

Anda dapat memodifikasi konfigurasi JSON layanan untuk mengaktifkan fitur lanjutan, seperti menyesuaikan batas token atau mengaktifkan tool calling (Function Calling).

Prosedur: Di halaman penerapan, buka bagian Service Configuration dan edit JSON-nya. Jika layanan sudah diterapkan, perbarui untuk mengakses halaman penerapan.

Ubah batas token

Model Qwen3 secara native mendukung panjang token sebesar 32.768. Anda dapat menggunakan teknologi RoPE scaling untuk mendukung panjang token maksimum hingga 131.072, tetapi hal ini dapat menyebabkan penurunan performa tertentu. Untuk melakukannya, ubah bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:

vLLM:

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

SGLang:

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

Penguraian pemanggilan alat

vLLM dan SGLang mendukung penguraian konten pemanggilan alat yang dihasilkan model menjadi pesan terstruktur. Untuk mengaktifkannya, ubah bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:

vLLM:

vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes

SGLang:

python -m sglang.launch_server ... --tool-call-parser qwen25

Kontrol mode berpikir

Qwen3 menggunakan mode berpikir secara default. Anda dapat mengontrol fitur ini dengan sakelar keras untuk sepenuhnya menonaktifkan berpikir atau sakelar lunak di mana model mengikuti instruksi pengguna apakah akan berpikir atau tidak.

Gunakan sakelar lunak /no_think

Kode berikut menyediakan contoh badan permintaan:

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

Gunakan sakelar keras

Kontrol dengan parameter API (untuk vLLM dan SGLang): Tambahkan parameter chat_template_kwargs ke pemanggilan API. Kode berikut memberikan contohnya:

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<MODEL_NAME>",
        "messages": [
            {
                "role": "user",
                "content": "Give me a short introduction to large language models."
            }
        ],
        "temperature": 0.7,
        "top_p": 0.8,
        "max_tokens": 8192,
        "presence_penalty": 1.5,
        "chat_template_kwargs": {"enable_thinking": false}
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI
# # Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.
openai_api_key = "<<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="<MODEL_NAME>",
    messages=[
        {"role": "user", "content": "Give me a short introduction to large language models."},
    ],
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)
print("Chat response:", chat_response)

Ganti <EAS_ENDPOINT> dengan titik akhir layanan, <EAS_TOKEN> dengan token layanan, dan <MODEL_NAME> dengan nama model aktual yang diambil dari API /v1/models.

Nonaktifkan dengan memodifikasi konfigurasi layanan (untuk BladeLLM): Anda dapat menggunakan templat chat yang mencegah model menghasilkan konten berpikir saat model dimulai.
- Di halaman perkenalan model di Model Gallery, periksa apakah tersedia metode untuk menonaktifkan mode berpikir untuk BladeLLM. Misalnya, dengan Qwen3-8B, Anda dapat menonaktifkan mode berpikir dengan memodifikasi bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:
```
blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
```
- Anda dapat membuat templat chat sendiri, seperti no_thinking.jinja, memasangnya dari OSS untuk dibaca, dan memodifikasi bidang containers.script dalam file JSON konfigurasi layanan.

Penguraian konten berpikir

Untuk mengeluarkan bagian "berpikir" secara terpisah, ubah bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:

vLLM:

vllm serve ... --enable-reasoning --reasoning-parser qwen3

SGLang:

python -m sglang.launch_server ... --reasoning-parser deepseek-r1

Fine-tuning model

Model Qwen3-32B, 14B, 8B, 4B, 1.7B, dan 0.6B mendukung Supervised Fine-Tuning (SFT) (full-parameter, LoRA, atau QLoRA) dan pelatihan GRPO.
Anda dapat mengirimkan tugas pelatihan dengan satu klik untuk melatih model sesuai skenario bisnis Anda.

Evaluasi model

Untuk petunjuk lengkap tentang evaluasi model, lihat Evaluasi model dan Praktik terbaik evaluasi LLM.

Lampiran: Daya komputasi yang dibutuhkan dan jumlah token yang didukung untuk penerapan

Tabel berikut mencantumkan konfigurasi minimum yang dibutuhkan untuk penerapan Qwen3 dan jumlah maksimum token yang didukung pada framework inferensi berbeda ketika menggunakan berbagai tipe instans.

Catatan

Di antara model FP8, hanya model Qwen3-235B-A22B yang memiliki persyaratan daya komputasi lebih rendah dibandingkan model aslinya. Persyaratan daya komputasi untuk model FP8 lainnya sama dengan model non-FP8-nya, sehingga tidak dicantumkan dalam tabel. Misalnya, untuk mengetahui daya komputasi yang dibutuhkan oleh Qwen3-30B-A3B-FP8, rujuk ke Qwen3-30B-A3B.

Model	Jumlah maksimum token yang didukung (input + output)		Konfigurasi minimum
Model	Penerapan dipercepat SGLang	vLLM accelerated deployment	Konfigurasi minimum
Qwen3-235B-A22B	32768 (dengan RoPE scaling: 131072)	32768 (dengan RoPE scaling: 131072)	8 × GPU H / GU120 (8 × 96 GB VRAM)
Qwen3-235B-A22B-FP8	32768 (dengan RoPE scaling: 131072)	32768 (dengan RoPE scaling: 131072)	4 × GPU H / GU120 (4 × 96 GB VRAM)
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B	32768 (dengan RoPE scaling: 131072)	32768 (dengan RoPE scaling: 131072)	1 × GPU H / GU120 (96 GB VRAM)
Qwen3-14B Qwen3-14B-Base	32768 (dengan RoPE scaling: 131072)	32768 (dengan RoPE scaling: 131072)	1 × GPU L / GU60 (48 GB VRAM)
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base	32768 (dengan RoPE scaling: 131072)	32768 (dengan RoPE scaling: 131072)	1 × A10 / GU30 (24 GB VRAM) Penting Model 8B membutuhkan VRAM 48 GB saat RoPE scaling diaktifkan.

FAQ

T: Apakah layanan model yang diterapkan di PAI mendukung fungsionalitas sesi (mempertahankan konteks antar beberapa permintaan)?

Tidak. API layanan model yang diterapkan di PAI bersifat tanpa status. Setiap pemanggilan bersifat independen, dan server tidak menyimpan konteks atau status sesi apa pun antar permintaan.

Untuk mengimplementasikan percakapan multi-putaran, klien harus menyimpan riwayat percakapan dan menyertakannya dalam permintaan pemanggilan model berikutnya. Untuk contoh permintaan, lihat Bagaimana cara mengimplementasikan percakapan multi-putaran?