モデルギャラリーで Qwen3 モデルのデプロイ、ファインチューニング、評価を行います。Qwen3 シリーズには、8 つのサイズの MoE モデルと密モデルが含まれています。
モデルのデプロイと呼び出し
モデルのデプロイ
この例では、SGLang を使用して Qwen3-235B-A22B モデルをデプロイします。
-
モデルギャラリーページに移動します。
-
PAI コンソールにログインします。左上の隅でリージョンを選択します。利用可能なコンピューティングリソースを見つけるには、リージョンを切り替えてください。
-
左側のナビゲーションウィンドウで、Workspaces を選択し、対象のワークスペースをクリックします。
-
左側のナビゲーションウィンドウで、QuickStart > [Model Gallery] を選択します。
-
-
モデルギャラリーページで、Qwen3-235B-A22B モデルカードをクリックして、モデル詳細ページに移動します。
-
右上の隅にある Deploy をクリックします。次のパラメーターを設定し、その他のパラメーターはデフォルト値のままにします。
-
Deployment Method:Inference Engine を SGLang に、Deployment Template を Single-Node に設定します。
-
Resource Information:Resource Type で、パブリックリソースを選択します。 システムによって、適切なインスタンスタイプが推奨されます。 最小限必要な構成については、「付録: 必要なコンピューティングリソースとサポートされるトークン数」をご参照ください。
重要利用可能なリソース仕様がない場合、現在のリージョンのパブリックリソースの在庫が不足しています。次のオプションをお試しください:
-
リージョンを切り替える。中国 (ウランチャブ) は、ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、ml.gu8tf.8.40xlarge などの Lingjun プリエンプティブルリソースの在庫が豊富です。プリエンプティブルリソースは回収される可能性があります。入札は慎重に行ってください。
-
EAS リソースグループを使用する。EAS 専用リソースサブスクリプションに移動して、専用 EAS リソースを購入します。
-
-
オンラインデバッグ
Service details ページで、下部にあるオンラインデバッグをクリックします。例:

API の呼び出し
-
サービスエンドポイントとトークンを取得します:
-
左側のナビゲーションウィンドウで、[Model Gallery] > Job Management > Deployment Jobs を選択し、サービス名をクリックしてサービス詳細ページを開きます。
-
View Call Information をクリックして、インターネットエンドポイントとトークンを見つけます。

-
-
次の例では、SGLang でデプロイされたサービスの
/v1/chat/completionsチャット API を呼び出します。curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<model_name, obtained from the /v1/models API>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "hello!" } ] }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI ##### API 設定 ##### # <EAS_ENDPOINT> をサービスエンドポイントに、<EAS_TOKEN> をサービストークンに置き換えます。 openai_api_key = "<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) models = client.models.list() model = models.data[0].id print(model) stream = True chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "你好,请介绍一下你自己。"} ], model=model, max_completion_tokens=2048, stream=stream, ) if stream: for chunk in chat_completion: print(chunk.choices[0].delta.content, end="") else: result = chat_completion.choices[0].message.content print(result)<EAS_ENDPOINT> をサービスエンドポイントに、<EAS_TOKEN> をサービストークンに置き換えます。
呼び出し方法はデプロイメント方法によって異なります。その他の例については、「デプロイされた LLM サービスの API の呼び出し」をご参照ください。
サードパーティとの連携
Chatbox、Dify、または Cherry Studio に接続するには、「サードパーティクライアントとの連携」をご参照ください。
高度な設定
JSON 設定を編集して、トークン制限の調整やツール呼び出しの有効化などの高度な機能を有効にします。
手順:デプロイメントページで、Service Configuration セクションの JSON を編集します。サービスがすでにデプロイされている場合は、サービスを更新してデプロイメントページに戻ります。

トークン制限の変更
Qwen3 モデルはネイティブで 32,768 トークンをサポートします。RoPE スケーリングにより最大 131,072 まで拡張できますが、パフォーマンスがわずかに低下する可能性があります。これを有効にするには、サービス設定 JSON の containers.script フィールドを次のように変更します:
-
vLLM:
vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072 -
SGLang:
python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'
ツール呼び出しの解析
vLLM と SGLang は、ツール呼び出しコンテンツを構造化メッセージに解析することをサポートしています。これを有効にするには、サービス設定 JSON の containers.script フィールドを次のように変更します:
-
vLLM:
vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes -
SGLang:
python -m sglang.launch_server ... --tool-call-parser qwen25
思考モードの制御
Qwen3 はデフォルトで思考モードを使用します。ハードスイッチを使用して思考を完全に無効にするか、ソフトスイッチを使用してモデルが思考するかどうかに関するユーザーの命令に従うようにします。
/no_think を使用したソフトスイッチ
リクエストボディの例:
{
"model": "<MODEL_NAME>",
"messages": [
{
"role": "user",
"content": "/no_think Hello!"
}
],
"max_tokens": 1024
}
ハードスイッチ
-
API パラメーターを使用した制御 (vLLM および SGLang の場合):API 呼び出しに
chat_template_kwargsパラメーターを追加します。例:curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<MODEL_NAME>", "messages": [ { "role": "user", "content": "Give me a short introduction to large language models." } ], "temperature": 0.7, "top_p": 0.8, "max_tokens": 8192, "presence_penalty": 1.5, "chat_template_kwargs": {"enable_thinking": false} }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI # # <EAS_ENDPOINT> をサービスエンドポイントに、<EAS_TOKEN> をサービストークンに置き換えます。 openai_api_key = "<<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) chat_response = client.chat.completions.create( model="<MODEL_NAME>", messages=[ {"role": "user", "content": "Give me a short introduction to large language models."}, ], temperature=0.7, top_p=0.8, presence_penalty=1.5, extra_body={"chat_template_kwargs": {"enable_thinking": False}}, ) print("Chat response:", chat_response)<EAS_ENDPOINT> をサービスエンドポイントに、<EAS_TOKEN> をサービストークンに置き換えます。<MODEL_NAME> は、
/v1/modelsAPI から取得できる実際のモデル名に置き換えます。 -
サービス設定の変更による無効化 (BladeLLM の場合):起動時にモデルが思考コンテンツを生成しないようにするチャットテンプレートを使用します。
-
モデルギャラリーのモデル紹介ページで、BladeLLM の思考モードを無効にする方法を確認します。例えば、Qwen3-8B では、サービス設定 JSON ファイルの
containers.scriptフィールドを次のように変更することで、思考モードを無効にできます:blade_llm_server ... --chat_template /model_dir/no_thinking.jinja -
no_thinking.jinjaなどの独自のチャットテンプレートを作成し、OSS からマウントして、サービス設定 JSON ファイルのcontainers.scriptフィールドを変更します。
-
思考コンテンツの解析
応答の思考部分を個別に出力するには、サービス設定 JSON の containers.script フィールドを次のように変更します:
-
vLLM:
vllm serve ... --enable-reasoning --reasoning-parser qwen3 -
SGLang:
python -m sglang.launch_server ... --reasoning-parser deepseek-r1
モデルのファインチューニング
-
Qwen3-32B、14B、8B、4B、1.7B、0.6B は、SFT (フルパラメーター、LoRA、QLoRA ファインチューニング) および GRPO トレーニングをサポートしています。
-
ワンクリックでトレーニングジョブを送信し、ビジネスシナリオに合わせたカスタムモデルをトレーニングします。


モデルの評価
モデル評価の手順については、「モデル評価」および「LLM 評価のベストプラクティス」をご参照ください。
付録:必要なコンピューティングリソースとサポートされるトークン数
次の表は、Qwen3 モデルをデプロイするための最小構成と、さまざまなインスタンスタイプで異なる推論フレームワークがサポートする最大トークン数を示しています。
FP8 モデルの中で、元のモデルよりも少ないコンピューティングリソースで済むのは Qwen3-235B-A22B-FP8 のみです。その他の FP8 モデルは、FP8 でないバージョンと同じリソースを必要とするため、個別には記載されていません。例えば、Qwen3-30B-A3B-FP8 が必要とするリソースについては、Qwen3-30B-A3B をご参照ください。
|
モデル |
最大トークン数 (入力 + 出力) |
最小構成 |
|
|
SGLang |
vLLM |
||
|
Qwen3-235B-A22B |
32,768 (RoPE スケーリング使用時:131,072) |
32,768 (RoPE スケーリング使用時:131,072) |
8 × GPU H / GU120 (8 × 96 GB GPU メモリ) |
|
Qwen3-235B-A22B-FP8 |
32,768 (RoPE スケーリング使用時:131,072) |
32,768 (RoPE スケーリング使用時:131,072) |
4 × GPU H / GU120 (4 × 96 GB GPU メモリ) |
|
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B |
32,768 (RoPE スケーリング使用時:131,072) |
32,768 (RoPE スケーリング使用時:131,072) |
1 × GPU H / GU120 (96 GB GPU メモリ) |
|
Qwen3-14B Qwen3-14B-Base |
32,768 (RoPE スケーリング使用時:131,072) |
32,768 (RoPE スケーリング使用時:131,072) |
1 × GPU L / GU60 (48 GB GPU メモリ) |
|
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base |
32,768 (RoPE スケーリング使用時:131,072) |
32,768 (RoPE スケーリング使用時:131,072) |
1 × A10 / GU30 (24 GB GPU メモリ) 重要
RoPE スケーリングを使用する 8B モデルには 48 GB の GPU メモリが必要です。 |
よくある質問
Q:PAI でデプロイされたサービスはセッションコンテキストをサポートしていますか?
いいえ。PAI にデプロイされたモデルサービス API はステートレスです。各呼び出しは独立しており、サーバーはリクエスト間でコンテキストやセッションの状態を保持しません。
マルチターン対話を実現するには、クライアントが会話履歴を保存し、後続の API リクエストに含める必要があります。例については、「マルチターン対話の実装方法」をご参照ください。