Jalankan Qwen3 di PAI Model Gallery dengan Fine-Tuning & Evaluasi - Platform for AI - Alibaba Cloud - Platform For AI

Terapkan, fine-tune, dan evaluasi model Qwen3 di Model Gallery. Seri Qwen3 mencakup model MoE dan model padat dalam delapan ukuran.

Deploy and invoke a model

Deploy a model

Contoh ini menerapkan model Qwen3-235B-A22B dengan SGLang.

Buka halaman Model Gallery.
1. Login ke PAI console. Di pojok kiri atas, pilih Wilayah. Ganti wilayah untuk menemukan sumber daya komputasi yang tersedia.
2. Di panel navigasi sebelah kiri, pilih Workspaces dan klik ruang kerja target Anda.
3. Di panel navigasi sebelah kiri, pilih QuickStart > Model Gallery.
Di halaman Model Gallery, klik kartu model Qwen3-235B-A22B untuk membuka halaman detail model.
Di pojok kanan atas, klik Deploy. Konfigurasikan parameter berikut dan gunakan nilai default untuk parameter lainnya.
- Deployment Method: Atur Inference Engine ke SGLang dan Deployment Template ke Single-Node.
- Resource Information: Untuk Resource Type, pilih public resource. Sistem akan merekomendasikan tipe instans yang sesuai. Untuk konfigurasi minimum yang diperlukan, lihat Lampiran: Sumber daya komputasi yang diperlukan dan jumlah token yang didukung.
  Penting
  Jika tidak ada spesifikasi sumber daya yang tersedia, inventaris public resource di wilayah saat ini tidak mencukupi. Coba opsi berikut:
  - Switch regions. China (Ulanqab) memiliki inventaris sumber daya preemptible Lingjun yang lebih besar, seperti ml.gu7ef.8xlarge-gu100, ml.gu7xf.8xlarge-gu108, ml.gu8xf.8xlarge-gu108, dan ml.gu8tf.8.40xlarge. Sumber daya preemptible dapat ditarik kembali. Tetapkan penawaran Anda dengan hati-hati.
  - Gunakan kelompok sumber daya EAS. Buka atau EAS Dedicated Resources Subscription untuk membeli sumber daya EAS khusus.

Debug online

Di halaman Service details, klik debugging online di bagian bawah. Contoh:

Invoke the API

Dapatkan titik akhir layanan dan token:
1. Di panel navigasi sebelah kiri, pilih Model Gallery > Job Management > Deployment Jobs dan klik nama layanan untuk membuka halaman detail layanan.
2. Klik View Call Information untuk menemukan titik akhir internet dan token.

Contoh berikut memanggil API chat /v1/chat/completions untuk layanan yang diterapkan dengan SGLang.

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<model_name, obtained from the /v1/models API>",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
        ]
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI

##### Konfigurasi API #####
# Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.
openai_api_key = "<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

models = client.models.list()
model = models.data[0].id
print(model)

stream = True
chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "你好，请介绍一下你自己。"}
    ],
    model=model,
    max_completion_tokens=2048,
    stream=stream,
)

if stream:
    for chunk in chat_completion:
        print(chunk.choices[0].delta.content, end="")
else:
    result = chat_completion.choices[0].message.content
    print(result)

Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.

Metode invokasi bervariasi tergantung pada metode penerapannya. Untuk contoh selengkapnya, lihat Menginvokasi API untuk layanan LLM yang diterapkan.

Third-party integration

Untuk terhubung ke Chatbox, Dify, atau Cherry Studio, lihat Integrasi dengan klien pihak ketiga.

Advanced configuration

Edit konfigurasi JSON untuk mengaktifkan fitur lanjutan, seperti menyesuaikan batas token dan mengaktifkan tool calling.

Prosedur: Di halaman deployment, edit JSON di bagian Service Configuration. Jika layanan sudah diterapkan, perbarui untuk kembali ke halaman deployment.

Modify token limit

Model Qwen3 secara native mendukung 32.768 token. Skala RoPE memperluas maksimum hingga 131.072, meskipun performa mungkin sedikit menurun. Untuk mengaktifkannya, modifikasi bidang containers.script dalam JSON konfigurasi layanan:

vLLM:

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

SGLang:

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

Parse tool calls

vLLM dan SGLang mendukung penguraian konten tool calling menjadi pesan terstruktur. Untuk mengaktifkannya, modifikasi bidang containers.script dalam JSON konfigurasi layanan:

vLLM:

vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes

SGLang:

python -m sglang.launch_server ... --tool-call-parser qwen25

Control thinking mode

Qwen3 menggunakan thinking mode secara default. Gunakan hard switch untuk menonaktifkan thinking sepenuhnya, atau soft switch yang memungkinkan model mengikuti instruksi pengguna apakah akan berpikir atau tidak.

Use a soft switch with /no_think

Contoh badan permintaan:

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

Hard switch

Control by using API parameters (untuk vLLM dan SGLang): Tambahkan parameter chat_template_kwargs ke pemanggilan API. Contoh:

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<MODEL_NAME>",
        "messages": [
            {
                "role": "user",
                "content": "Give me a short introduction to large language models."
            }
        ],
        "temperature": 0.7,
        "top_p": 0.8,
        "max_tokens": 8192,
        "presence_penalty": 1.5,
        "chat_template_kwargs": {"enable_thinking": false}
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI
# # Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan.
openai_api_key = "<<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="<MODEL_NAME>",
    messages=[
        {"role": "user", "content": "Give me a short introduction to large language models."},
    ],
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)
print("Chat response:", chat_response)

Ganti <EAS_ENDPOINT> dengan titik akhir layanan dan <EAS_TOKEN> dengan token layanan. Ganti <MODEL_NAME> dengan nama model aktual, yang tersedia dari API /v1/models.

Disable by modifying the service configuration (untuk BladeLLM): Gunakan templat chat yang mencegah model menghasilkan konten thinking saat startup.
- Di halaman pengantar model di Model Gallery, periksa metode untuk menonaktifkan thinking mode untuk BladeLLM. Misalnya, dengan Qwen3-8B, Anda dapat menonaktifkan thinking mode dengan memodifikasi bidang containers.script dalam file JSON konfigurasi layanan sebagai berikut:
```
blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
```
- Buat sendiri templat chat Anda, seperti no_thinking.jinja, pasang dari OSS, dan modifikasi bidang containers.script dalam file JSON konfigurasi layanan.

Parse thinking content

Untuk mengeluarkan bagian thinking dari tanggapan secara terpisah, modifikasi bidang containers.script dalam JSON konfigurasi layanan:

vLLM:

vllm serve ... --enable-reasoning --reasoning-parser qwen3

SGLang:

python -m sglang.launch_server ... --reasoning-parser deepseek-r1

Fine-tune a model

Qwen3-32B, 14B, 8B, 4B, 1,7B, dan 0,6B mendukung SFT (fine-tuning parameter penuh, LoRA, dan QLoRA) serta pelatihan GRPO.
Kirim pekerjaan pelatihan dengan satu klik untuk melatih model kustom sesuai skenario bisnis Anda.

Evaluate a model

Untuk petunjuk evaluasi model, lihat Model evaluation dan Best practices for LLM evaluation.

Lampiran: Sumber daya komputasi yang diperlukan dan jumlah token yang didukung

Tabel berikut mencantumkan konfigurasi minimum untuk menerapkan model Qwen3 dan jumlah token maksimum yang didukung oleh berbagai framework inferensi pada tipe instans yang berbeda.

Catatan

Di antara model FP8, hanya Qwen3-235B-A22B-FP8 yang memerlukan sumber daya komputasi lebih sedikit dibandingkan versi aslinya. Model FP8 lainnya memerlukan sumber daya yang sama dengan versi non-FP8-nya dan tidak dicantumkan secara terpisah. Misalnya, untuk sumber daya yang diperlukan oleh Qwen3-30B-A3B-FP8, lihat Qwen3-30B-A3B.

Model	Jumlah token maksimum (input + output)		Konfigurasi minimum
Model	SGLang	vLLM	Konfigurasi minimum
Qwen3-235B-A22B	32.768 (dengan RoPE scaling: 131.072)	32.768 (dengan RoPE scaling: 131.072)	8 × GPU H / GU120 (8 × 96 GB Memori GPU)
Qwen3-235B-A22B-FP8	32.768 (dengan RoPE scaling: 131.072)	32.768 (dengan RoPE scaling: 131.072)	4 × GPU H / GU120 (4 × 96 GB Memori GPU)
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B	32.768 (dengan RoPE scaling: 131.072)	32.768 (dengan RoPE scaling: 131.072)	1 × GPU H / GU120 (96 GB Memori GPU)
Qwen3-14B Qwen3-14B-Base	32.768 (dengan RoPE scaling: 131.072)	32.768 (dengan RoPE scaling: 131.072)	1 × GPU L / GU60 (48 GB Memori GPU)
Qwen3-8B Qwen3-4B Qwen3-1,7B Qwen3-0,6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1,7B-Base Qwen3-0.6B-Base	32.768 (dengan RoPE scaling: 131.072)	32.768 (dengan RoPE scaling: 131.072)	1 × A10 / GU30 (24 GB Memori GPU) Penting Model 8B dengan RoPE scaling memerlukan 48 GB Memori GPU.

FAQ

Q: Apakah layanan yang diterapkan di PAI mendukung konteks sesi?

Tidak. API layanan model yang diterapkan di PAI bersifat tanpa status. Setiap pemanggilan bersifat independen, dan server tidak menyimpan konteks atau status sesi antar permintaan.

Untuk mengimplementasikan percakapan multi-putaran, klien harus menyimpan riwayat percakapan dan menyertakannya dalam permintaan API berikutnya. Untuk contohnya, lihat How do I implement a multi-turn conversation?