全部产品
Search
文档中心

Platform For AI:Panduan Cepat: Penerapan, Fine-tuning, dan Evaluasi model Qwen3

更新时间:Nov 28, 2025

Qwen3 adalah seri model bahasa besar (LLM) terbaru yang dirilis oleh tim Alibaba Cloud Qwen pada 29 April 2024. Seri ini mencakup dua model Mixture-of-Experts (MoE) dan enam model Dense. Berkat pelatihan ekstensif, Qwen3 mencapai terobosan dalam penalaran, pemahaman instruksi, kemampuan agen, serta dukungan multibahasa. Model Gallery Platform for AI (PAI) menyediakan akses ke kedelapan ukuran model tersebut, termasuk versi Base dan FP8-nya, sehingga total tersedia 22 model. Panduan ini menjelaskan cara menerapkan, melakukan fine-tuning, dan mengevaluasi rangkaian model Qwen3 di Model Gallery.

Penerapan model dan pemanggilan

Terapkan model

Bagian ini menjelaskan cara menerapkan model Qwen3-235B-A22B dengan SGLang.

  1. Buka halaman Model Gallery.

    1. Masuk ke Konsol PAI dan pilih wilayah di pojok kiri atas. Anda dapat mengganti wilayah untuk menemukan wilayah yang memiliki sumber daya komputasi yang cukup.

    2. Pada panel navigasi di sebelah kiri, klik Workspace Management, lalu klik nama ruang kerja yang dituju.

    3. Pada panel navigasi kiri, pilih QuickStart > Model Gallery.

  2. Pada halaman Model Gallery, klik kartu model Qwen3-235B-A22B untuk membuka halaman detail model.

  3. Klik Deploy di pojok kanan atas. Konfigurasikan parameter berikut dan gunakan nilai default untuk parameter lainnya agar model diterapkan ke Elastic Algorithm Service (EAS).

    • Deployment Method: Atur Inference Engine ke SGLang dan Deployment Template ke Single-Node.

    • Resource Information: Atur Resource Type ke Public Resources. Sistem secara otomatis merekomendasikan tipe instans. Untuk konfigurasi minimum yang diperlukan, lihat Daya komputasi yang dibutuhkan & jumlah token yang didukung.

    • Penting

      Jika tidak ada tipe instans yang tersedia, artinya inventaris sumber daya publik di wilayah tersebut tidak mencukupi. Pertimbangkan opsi berikut:

      • Ganti wilayah. Misalnya, wilayah China (Ulanqab) memiliki inventaris sumber daya preemptible Lingjun yang lebih besar, seperti ml.gu7ef.8xlarge-gu100, ml.gu7xf.8xlarge-gu108, ml.gu8xf.8xlarge-gu108, dan ml.gu8tf.8.40xlarge. Karena sumber daya preemptible dapat ditarik kembali, perhatikan penawaran (bid) Anda.

      • Gunakan kelompok sumber daya EAS. Anda dapat membeli sumber daya EAS spesifikasi khusus dari EAS Dedicated Resources Subscription.

    image

Debug online

Pada halaman Service Details, klik Online Debugging. Contohnya ditunjukkan pada gambar berikut.

image

Panggil API

  1. Dapatkan titik akhir layanan dan token.

    1. Di Model Gallery > Job Management > Deployment Jobs, klik nama layanan yang telah diterapkan untuk membuka halaman detail layanan.

    2. Klik View Invocation Method untuk melihat Internet Endpoint dan token.

      image

  2. Contoh berikut menunjukkan cara memanggil titik akhir /v1/chat/completions untuk penerapan SGLang.

    curl -X POST \
        -H "Content-Type: application/json" \
        -H "Authorization: <EAS_TOKEN>" \
        -d '{
            "model": "<model_name, get from the /v1/models API>",
            "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "hello!"
            }
            ]
        }' \
        <EAS_ENDPOINT>/v1/chat/completions
    from openai import OpenAI
    
    ##### Konfigurasi API #####
    # Ganti <EAS_ENDPOINT> dengan titik akhir layanan yang diterapkan dan <EAS_TOKEN> dengan token layanan.
    openai_api_key = "<EAS_TOKEN>"
    openai_api_base = "<EAS_ENDPOINT>/v1"
    
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    
    models = client.models.list()
    model = models.data[0].id
    print(model)
    
    stream = True
    chat_completion = client.chat.completions.create(
        messages=[
            {"role": "user", "content": "Hello, please introduce yourself."}
        ],
        model=model,
        max_completion_tokens=2048,
        stream=stream,
    )
    
    if stream:
        for chunk in chat_completion:
            print(chunk.choices[0].delta.content, end="")
    else:
        result = chat_completion.choices[0].message.content
        print(result)

    Ganti <EAS_ENDPOINT> dengan titik akhir layanan Anda dan <EAS_TOKEN> dengan token layanan Anda.

Metode pemanggilan bervariasi tergantung jenis penerapannya. Untuk contoh lainnya, lihat Menerapkan model bahasa besar dan memanggil API.

Integrasikan aplikasi pihak ketiga

Untuk menghubungkan ke Chatbox, Dify, atau Cherry Studio, lihat Integrasikan klien pihak ketiga.

Konfigurasi lanjutan

Anda dapat mengaktifkan fitur lanjutan, seperti menyesuaikan batas token atau mengaktifkan Pemanggilan alat, dengan memodifikasi konfigurasi JSON layanan.

Untuk memodifikasi konfigurasi: Pada halaman penerapan, edit JSON di bagian Service Configuration. Untuk layanan yang sudah diterapkan, Anda harus memperbaruinya untuk mengakses halaman penerapannya.

image

Ubah batas token

Model Qwen3 secara native mendukung panjang token hingga 32.768. Anda dapat menggunakan teknologi RoPE scaling untuk memperluasnya hingga maksimum 131.072 token, meskipun hal ini mungkin menyebabkan sedikit degradasi performa. Untuk melakukannya, modifikasi bidang containers.script pada file JSON konfigurasi layanan sebagai berikut:

  • vLLM:

    vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072
  • SGLang:

    python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

Uraikan pemanggilan alat

vLLM dan SGLang mendukung penguraian keluaran pemanggilan alat model menjadi pesan terstruktur. Untuk mengaktifkannya, modifikasi bidang containers.script pada file JSON konfigurasi layanan sebagai berikut:

  • vLLM:

    vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes
  • SGLang:

    python -m sglang.launch_server ... --tool-call-parser qwen25

Kontrol mode berpikir

Qwen3 menggunakan mode berpikir secara default. Anda dapat mengontrol perilaku ini dengan sakelar keras (untuk sepenuhnya menonaktifkan berpikir) atau sakelar lunak (di mana model mengikuti instruksi pengguna apakah perlu berpikir atau tidak).

Gunakan sakelar lunak /no_think

Contoh badan permintaan:

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

Gunakan sakelar perangkat keras

  • Kontrol dengan parameter API (untuk vLLM dan SGLang): Tambahkan parameter chat_template_kwargs ke panggilan API Anda. Contoh:

    curl -X POST \
        -H "Content-Type: application/json" \
        -H "Authorization: <EAS_TOKEN>" \
        -d '{
            "model": "<MODEL_NAME>",
            "messages": [
                {
                    "role": "user",
                    "content": "Give me a short introduction to large language models."
                }
            ],
            "temperature": 0.7,
            "top_p": 0.8,
            "max_tokens": 8192,
            "presence_penalty": 1.5,
            "chat_template_kwargs": {"enable_thinking": false}
        }' \
        <EAS_ENDPOINT>/v1/chat/completions
    from openai import OpenAI
    # Ganti <EAS_ENDPOINT> dengan titik akhir layanan yang diterapkan dan <EAS_TOKEN> dengan token layanan.
    openai_api_key = "<<EAS_TOKEN>"
    openai_api_base = "<EAS_ENDPOINT>/v1"
    
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    
    chat_response = client.chat.completions.create(
        model="<MODEL_NAME>",
        messages=[
            {"role": "user", "content": "Give me a short introduction to large language models."},
        ],
        temperature=0.7,
        top_p=0.8,
        presence_penalty=1.5,
        extra_body={"chat_template_kwargs": {"enable_thinking": False}},
    )
    print("Chat response:", chat_response)

    Ganti <EAS_ENDPOINT> dengan titik akhir layanan Anda, <EAS_TOKEN> dengan token layanan Anda, dan <MODEL_NAME> dengan nama model yang diambil dari API /v1/models.

  • Nonaktifkan dengan memodifikasi konfigurasi layanan (untuk BladeLLM): Gunakan templat percakapan yang mencegah model menghasilkan konten berpikir saat meluncurkan model.

    • Pada halaman produk model di Model Gallery, periksa apakah tersedia metode untuk menonaktifkan mode berpikir untuk BladeLLM. Misalnya, dengan Qwen3-8B, Anda dapat menonaktifkan mode berpikir dengan memodifikasi bidang containers.script pada file JSON konfigurasi layanan sebagai berikut:

      blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
    • Buat templat percakapan kustom, seperti no_thinking.jinja, pasang dari OSS, dan modifikasi bidang containers.script pada file JSON konfigurasi layanan.

      image

Uraikan konten berpikir

Untuk mengeluarkan bagian berpikir secara terpisah, modifikasi bidang containers.script pada file JSON konfigurasi layanan sebagai berikut:

  • vLLM:

    vllm serve ... --enable-reasoning --reasoning-parser qwen3
  • SGLang:

    python -m sglang.launch_server ... --reasoning-parser deepseek-r1

Fine-tuning model

  • Model Qwen3-32B, 14B, 8B, 4B, 1,7B, dan 0,6B mendukung Supervised Fine-Tuning (SFT) dengan fine-tuning parameter penuh, LoRA, atau QLoRA, serta pelatihan Generative Rejection-based Preference Optimization (GRPO).

  • Kirim pekerjaan pelatihan satu-klik untuk membuat model yang disesuaikan dengan skenario bisnis Anda.

image

image

Evaluasi model

Untuk petunjuk lengkap tentang evaluasi model, lihat Evaluasi model dan Praktik terbaik untuk evaluasi LLM.

Lampiran: Daya komputasi yang dibutuhkan dan jumlah token yang didukung

Tabel berikut mencantumkan konfigurasi minimum yang diperlukan untuk menerapkan model Qwen3 dan jumlah token maksimum yang didukung pada berbagai framework inferensi dan tipe instans.

Catatan

Di antara model FP8, hanya Qwen3-235B-A22B yang memiliki kebutuhan daya komputasi lebih rendah dibandingkan versi aslinya. Kebutuhan untuk model FP8 lainnya identik dengan versi non-FP8-nya sehingga tidak dicantumkan dalam tabel ini. Misalnya, untuk mengetahui daya komputasi yang dibutuhkan untuk Qwen3-30B-A3B-FP8, rujuk ke Qwen3-30B-A3B.

Model

Jumlah token maksimum (input + output)

Konfigurasi minimum

Penerapan SGLang yang Dipercepat

Penerapan percepatan vLLM

Qwen3-235B-A22B

32.768 (dengan RoPE scaling: 131.072)

32.768 (dengan RoPE scaling: 131.072)

8 × GPU H / GU120

(8 × 96 GB Memori GPU)

Qwen3-235B-A22B-FP8

32.768 (dengan RoPE scaling: 131.072)

32.768 (dengan RoPE scaling: 131.072)

4 × GPU H / GU120

(4 × 96 GB Memori GPU)

Qwen3-30B-A3B

Qwen3-30B-A3B-Base

Qwen3-32B

32.768 (dengan RoPE scaling: 131.072)

32.768 (dengan RoPE scaling: 131.072)

1 × GPU H / GU120

(96 GB Memori GPU)

Qwen3-14B

Qwen3-14B-Base

32.768 (dengan RoPE scaling: 131.072)

32.768 (dengan RoPE scaling: 131.072)

1 × GPU L / GU60

(48 GB Memori GPU)

Qwen3-8B

Qwen3-4B

Qwen3-1.7B

Qwen3-0.6B

Qwen3-8B-Base

Qwen3-4B-Base

Qwen3-1.7B-Base

Qwen3-0.6B-Base

32.768 (dengan RoPE scaling: 131.072)

32.768 (dengan RoPE scaling: 131.072)

1 × A10 / GU30

(24 GB Memori GPU)

Penting

Model 8B dengan RoPE scaling memerlukan Memori GPU sebesar 48 GB.

FAQ

T: Bagaimana cara saya mempertahankan konteks percakapan di beberapa panggilan API dengan model yang diterapkan di PAI?

Layanan model yang diterapkan di PAI bersifat tanpa status. Setiap panggilan API bersifat independen, dan server tidak menyimpan konteks antarpermintaan.

Untuk menerapkan percakapan multi-putaran, Anda harus mengelola riwayat percakapan di sisi klien. Pada setiap panggilan API baru, Anda perlu mengirimkan seluruh riwayat percakapan dalam muatan messages. Untuk contohnya, lihat Bagaimana cara menerapkan percakapan multi-putaran?