快速開始：Qwen3系列模型部署、微調、評測 - Platform For AI

Qwen3是阿里雲千問團隊於2025年4月29日發布的最新大型語言模型系列，包含2個MoE模型和6個Dense模型。其基於廣泛的訓練，在推理、指令跟隨、Agent 能力和多語言支援方面取得了突破性的進展。PAI-Model Gallery已接入全部8個尺寸模型，以及其對應的Base模型、FP8模型，總計22個模型。本文為您介紹如何在Model Gallery部署評測該系列模型。

模型部署與調用

模型部署

以SGLang部署Qwen3-235B-A22B模型為例。

進入Model Gallery頁面。
1. 登入PAI控制台，在頂部左上方根據實際情況選擇地區（可以切換地區來擷取合適的計算資產庫存）。
2. 在左側導覽列選擇工作空間列表，單擊指定工作空間名稱，進入對應工作空間。
3. 在左側導覽列選擇快速開始 > Model Gallery。
在Model Gallery頁面右側的模型列表中，單擊Qwen3-235B-A22B模型卡片，進入模型詳情頁面。
單擊右上方部署，如下配置參數，其他保持預設，即可將模型部署到EAS推理服務平台。
- 部署方式：推理引擎選擇SGLang。部署模板選擇單機。
- 资源信息：资源类型選擇公用資源，系統會給出推薦規格。模型所需最低配置參見部署所需算力&支援Token數。
  重要
  如無可選資源規格，說明該地區公用資產庫存不足，可以考慮如下方案：
  - 切換地區。如華北6（烏蘭察布）地區有較多靈駿競價資源（ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、ml.gu8tf.8.40xlarge），競價資源可能被搶佔，注意出價。
  - 使用EAS資源群組。請前往EAS專屬機器預付費購買EAS專屬資源。

線上調試

在服務詳情頁最底端單擊線上調試，樣本如下。

API調用

擷取服務的訪問地址和Token。
1. 在Model Gallery > 任務管理 > 部署任務中單擊已部署的服務名稱，進入服務詳情頁。
2. 單擊查看調用資訊擷取公網調用地址和Token。

對話介面/v1/chat/completions調用樣本（SGLang部署）。

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<模型名，通過'/v1/models' API擷取>",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
        ]
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI

##### API 配置 #####
# <EAS_ENDPOINT>需替換為部署服務的訪問地址，<EAS_TOKEN>需替換為部署服務的Token。
openai_api_key = "<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

models = client.models.list()
model = models.data[0].id
print(model)

stream = True
chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "你好，請介紹一下你自己。"}
    ],
    model=model,
    max_completion_tokens=2048,
    stream=stream,
)

if stream:
    for chunk in chat_completion:
        print(chunk.choices[0].delta.content, end="")
else:
    result = chat_completion.choices[0].message.content
    print(result)

其中：<EAS_ENDPOINT>需替換為部署服務的訪問地址，<EAS_TOKEN>需替換為部署服務的Token。

部署方式不同，對應的調用方法也不同。更多調用請參見LLM大語言模型部署-API調用。

整合第三方應用

接入Chatbox、Dify或Cherry Studio，請參見整合第三方用戶端。

進階配置

通過修改服務的 JSON 配置，可以實現調整 Token 上限、啟用工具調用 (Function Calling) 等進階功能。

操作路徑：在部署頁面的服務配置地區，編輯JSON。如果是已部署的服務，通過更新服務進入部署頁面。

修改 Token 上限

Qwen3模型原生支援 token 長度為 32768，可通過 RoPE 縮放支援人員最大 131072 長度的 token（但可能損失部分效能）。如下修改服務配置JSON檔案中的containers.script欄位：

vLLM：

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

SGLang：

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

解析工具調用

vLLM/SGlang 支援將模型產生的工具調用內容解析為結構化訊息，如下修改服務配置JSON檔案中的containers.script欄位：

vLLM：

vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes

SGLang：

python -m sglang.launch_server ... --tool-call-parser qwen25

控制思考模式

Qwen3 預設使用思考模式，可以通過硬開關（完全禁用思考）或軟開關（模型遵循使用者關於是否應該思考的指令）來控制。

使用軟開關/no_think

請求體樣本如下：

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

使用硬開關

通過 API 參數控制（適用於vLLM和SGLang）：在API調用中增加參數chat_template_kwargs，樣本如下：

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<MODEL_NAME>",
        "messages": [
            {
                "role": "user",
                "content": "Give me a short introduction to large language models."
            }
        ],
        "temperature": 0.7,
        "top_p": 0.8,
        "max_tokens": 8192,
        "presence_penalty": 1.5,
        "chat_template_kwargs": {"enable_thinking": false}
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI
# # <EAS_ENDPOINT>需替換為部署服務的訪問地址，<EAS_TOKEN>需替換為部署服務的Token。
openai_api_key = "<<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="<MODEL_NAME>",
    messages=[
        {"role": "user", "content": "Give me a short introduction to large language models."},
    ],
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)
print("Chat response:", chat_response)

其中：<EAS_ENDPOINT>需替換為部署服務的訪問地址，<EAS_TOKEN>需替換為部署服務的Token。<MODEL_NAME>需替換為實際的模型名，通過/v1/models API擷取。

通過修改服務配置關閉（適用於BladeLLM）：啟動模型時使用阻止模型產生思考內容的聊天模板。
- 在Model Gallery的模型介紹頁，查看是否提供了BLadeLLM關閉思考模式的方式。如Qwen3-8B，可如下修改服務配置JSON檔案中的containers.script欄位關閉思考模式：
```
blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
```
- 自行編寫聊天模板如no_thinking.jinja，通過OSS掛載讀取，並修改服務配置JSON檔案中的containers.script欄位。

解析思考內容

需要將 think 部分區分輸出時，可以如下修改服務配置JSON檔案中的containers.script欄位：

vLLM：

vllm serve ... --enable-reasoning --reasoning-parser qwen3

SGLang：

python -m sglang.launch_server ... --reasoning-parser deepseek-r1

模型微調

Qwen3-32B/14B/8B/4B/1.7B/0.6B 模型已支援SFT（全參/LoRA/QLoRA微調）和GRPO訓練。
支援一鍵提交訓練任務，訓練企業業務情境專屬模型。

模型評測

關於模型評測詳細的操作說明，請參見模型評測、大模型評測最佳實務。

附錄：部署所需算力&支援Token數

下表提供了Qwen3部署所需的最低配置，以及使用不同機型部署時在不同推理架構上支援的最大 Token 數。

說明

FP8模型裡只有Qwen3-235B-A22B模型的算力需求比原模型減少，其他所需算力與非FP8無區別，故未列在表中。比如Qwen3-30B-A3B-FP8所需算力，請參考Qwen3-30B-A3B。

模型	支援的最大 Token 數（輸入+輸出）		最低配置
模型	SGLang 加速部署	vLLM 加速部署	最低配置
Qwen3-235B-A22B	32768（加 RoPE 縮放：131072）	32768（加 RoPE 縮放：131072）	8 卡 GPU H / GU120 （8 * 96 GB 顯存）
Qwen3-235B-A22B-FP8	32768（加 RoPE 縮放：131072）	32768（加 RoPE 縮放：131072）	4 卡 GPU H / GU120 （4 * 96 GB 顯存）
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B	32768（加 RoPE 縮放：131072）	32768（加 RoPE 縮放：131072）	1 卡 GPU H / GU120 （96 GB 顯存）
Qwen3-14B Qwen3-14B-Base	32768（加 RoPE 縮放：131072）	32768（加 RoPE 縮放：131072）	1 卡 GPU L / GU60 （48 GB 顯存）
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base	32768（加 RoPE 縮放：131072）	32768（加 RoPE 縮放：131072）	1 卡 A10 / GU30 （24 GB 顯存）重要 8B模型加RoPE縮放時，需要 48GB顯存

常見問題

Q: PAI部署的模型服務是否支援session/會話功能（多次請求之間能保持上下文資訊）？

不支援。PAI部署的模型服務API是無狀態的，每個調用完全獨立，伺服器不會在多個請求之間保留任何上下文或工作階段狀態。

如果要實現多輪對話，需要用戶端儲存歷史對話，再添加到模型調用的請求中，請求樣本見如何?多輪對話？