Qwen3 は、Alibaba Cloud Qwen チームが 2024 年 4 月 29 日にリリースした最新の large 言語モデル (LLM) シリーズです。これには、2 つの Mixture-of-Experts (MoE) モデルと 6 つの Dense モデルが含まれています。広範なトレーニングに基づき、Qwen3 は推論、命令フォロー、エージェント機能、多言語サポートにおいて画期的な成果を上げています。Platform for AI (PAI) モデルギャラリーは、合計 22 のモデルについて、対応する Base モデルと FP8 モデルとともに、8 つすべてのモデルサイズへのアクセスを提供します。このガイドでは、モデルギャラリーで Qwen3 モデルシリーズをデプロイ、ファインチューニング、評価する方法について説明します。
モデルのデプロイと呼び出し
モデルのデプロイ
このセクションでは、SGLang を使用して Qwen3-235B-A22B モデルをデプロイする方法を示します。
モデルギャラリーページに移動します。
PAI コンソールにログインし、左上のコーナーでリージョンを選択します。リージョンを切り替えて、十分な計算リソースがあるリージョンを見つけることができます。
左側のナビゲーションウィンドウで、[Workspace Management] をクリックし、ターゲットワークスペースの名前をクリックします。
左側のナビゲーションウィンドウで、[Getting Started] > [Model Gallery] を選択します。
モデルギャラリーページで、[Qwen3-235B-A22B] モデルカードをクリックして、モデルの詳細ページを開きます。
右上のコーナーで、[デプロイ] をクリックします。デプロイメントメソッドを選択し、必要なリソースを指定します。これにより、モデルが PAI Elastic Algorithm Service (EAS) にデプロイされます。
デプロイメントリソース: モデルで必要な最小構成については、「付録: 必要な計算能力とサポートされるトークン数」をご参照ください。
EAS リソースグループ: 専用リソースの EAS 前払いに移動して、専用の EAS リソースを購入します。
パブリックリソース: これはデフォルトのオプションで、推奨される仕様が含まれています。システムはリソース仕様のリストを自動的にフィルターして、モデルで利用可能なパブリックリソースのみを表示します。すべてのオプションがグレー表示されている場合、リソースは在庫切れです。別のリージョンへの切り替えを検討してください。
重要プリエンプティブルリソース (ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、および ml.gu8tf.8.40xlarge) は、中国 (ウランチャブ) リージョンでのみ利用可能で、許可リストは必要ありません。プリエンプティブルリソースは回収される可能性があるため、それに応じて入札してください。

オンラインでのデバッグ
[サービス詳細] ページで、[オンラインデバッグ] をクリックします。次の図に例を示します。

API の呼び出し
サービスエンドポイントとトークンを取得します。
[モデルギャラリー] > [タスク管理] > [デプロイメントタスク] で、デプロイされたサービスの名前をクリックしてサービス詳細ページを開きます。
[呼び出しメソッドの表示] をクリックして、サービスのエンドポイントとトークンを表示します。

次の例は、SGLang デプロイメントの
/v1/chat/completionsエンドポイントを呼び出す方法を示しています。curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<model_name, get from the /v1/models API>", "messages": [ { "role": "system", "content": "You are a helpful assistant." }, { "role": "user", "content": "hello!" } ] }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI ##### API configuration ##### # <EAS_ENDPOINT> をデプロイされたサービスのエンドポイントに、<EAS_TOKEN> をサービスのトークンに置き換えます。 openai_api_key = "<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) models = client.models.list() model = models.data[0].id print(model) stream = True chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "Hello, please introduce yourself."} ], model=model, max_completion_tokens=2048, stream=stream, ) if stream: for chunk in chat_completion: print(chunk.choices[0].delta.content, end="") else: result = chat_completion.choices[0].message.content print(result)<EAS_ENDPOINT>をサービスのエンドポイントに、<EAS_TOKEN>をサービストークンに置き換えます。
呼び出しメソッドはデプロイメントタイプによって異なります。その他の例については、「大規模言語モデルのデプロイと API の呼び出し」をご参照ください。
サードパーティアプリケーションの統合
Chatbox、Dify、または Cherry Studio に接続するには、「サードパーティクライアントの統合」をご参照ください。
高度な構成
サービスの JSON 構成を変更することで、トークン制限の調整や tool calling の有効化などの高度な機能を有効にできます。
構成を変更するには: デプロイメントページで、[サービス構成] セクションの JSON を編集します。デプロイされたサービスの場合、デプロイメントページにアクセスするには更新する必要があります。

トークン制限の変更
Qwen3 モデルは、ネイティブで 32,768 のトークン長をサポートしています。RoPE スケーリング技術を使用してこれを最大 131,072 トークンまで拡張できますが、これによりわずかなパフォーマンスの低下が発生する可能性があります。これを行うには、サービス構成 JSON ファイルの containers.script フィールドを次のように変更します:
vLLM:
vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072SGLang:
python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'
ツール呼び出しの解析
vLLM と SGLang は、モデルのツール呼び出し出力を構造化メッセージに解析することをサポートしています。これを有効にするには、サービス構成 JSON ファイルの containers.script フィールドを次のように変更します:
vLLM:
vllm serve ... --enable-auto-tool-choice --tool-call-parser hermesSGLang:
python -m sglang.launch_server ... --tool-call-parser qwen25
思考モードの制御
Qwen3 はデフォルトで思考モードを使用します。この動作は、ハードスイッチ (思考を完全に無効にする) またはソフトスイッチ (モデルが思考するかどうかについてユーザーの指示に従う) で制御できます。
ソフトスイッチ /no_think の使用
リクエストボディの例:
{
"model": "<MODEL_NAME>",
"messages": [
{
"role": "user",
"content": "/no_think Hello!"
}
],
"max_tokens": 1024
}ハードスイッチの使用
API パラメーターによる制御 (vLLM および SGLang の場合): API 呼び出しに
chat_template_kwargsパラメーターを追加します。例:curl -X POST \ -H "Content-Type: application/json" \ -H "Authorization: <EAS_TOKEN>" \ -d '{ "model": "<MODEL_NAME>", "messages": [ { "role": "user", "content": "Give me a short introduction to large language models." } ], "temperature": 0.7, "top_p": 0.8, "max_tokens": 8192, "presence_penalty": 1.5, "chat_template_kwargs": {"enable_thinking": false} }' \ <EAS_ENDPOINT>/v1/chat/completionsfrom openai import OpenAI # <EAS_ENDPOINT> をデプロイされたサービスのエンドポイントに、<EAS_TOKEN> をサービスのトークンに置き換えます。 openai_api_key = "<<EAS_TOKEN>" openai_api_base = "<EAS_ENDPOINT>/v1" client = OpenAI( api_key=openai_api_key, base_url=openai_api_base, ) chat_response = client.chat.completions.create( model="<MODEL_NAME>", messages=[ {"role": "user", "content": "Give me a short introduction to large language models."}, ], temperature=0.7, top_p=0.8, presence_penalty=1.5, extra_body={"chat_template_kwargs": {"enable_thinking": False}}, ) print("Chat response:", chat_response)<EAS_ENDPOINT>をサービスのエンドポイントに、<EAS_TOKEN>をサービストークンに、<MODEL_NAME>を/v1/modelsAPI から取得したモデル名に置き換えます。サービス構成の変更による無効化 (BladeLLM の場合): モデルの起動時にモデルが思考コンテンツを生成するのを防ぐチャットテンプレートを使用します。
モデルギャラリーのモデルの製品ページで、BladeLLM の思考モードを無効にする方法が提供されているか確認します。たとえば、Qwen3-8B では、サービス構成 JSON ファイルの
containers.scriptフィールドを次のように変更することで思考モードを無効にできます:blade_llm_server ... --chat_template /model_dir/no_thinking.jinjaカスタムチャットテンプレート (例:
no_thinking.jinja) を作成し、OSS からマウントして、サービス構成 JSON ファイルのcontainers.scriptフィールドを変更します。
思考コンテンツの解析
思考部分を個別に出力するには、サービス構成 JSON ファイルの containers.script フィールドを次のように変更します:
vLLM:
vllm serve ... --enable-reasoning --reasoning-parser qwen3SGLang:
python -m sglang.launch_server ... --reasoning-parser deepseek-r1
モデルのファインチューニング
Qwen3-32B、14B、8B、4B、1.7B、および 0.6B モデルは、Supervised Fine-Tuning (SFT) をサポートしており、フルパラメーター、LoRA、または QLoRA ファインチューニング、および Generative Rejection-based Preference Optimization (GRPO) トレーニングが可能です。
ワンクリックでトレーニングタスクを送信し、ビジネスシナリオに合わせたモデルを作成します。


モデルの評価
モデル評価の詳細な手順については、「モデル評価」および「LLM 評価のベストプラクティス」をご参照ください。
付録: 必要な計算能力とサポートされるトークン数
次の表は、Qwen3 モデルをデプロイするために必要な最小構成と、さまざまな推論フレームワークおよびインスタンスタイプでサポートされる最大トークン数を示しています。
FP8 モデルの中で、元のモデルよりも計算能力の要件が低いのは Qwen3-235B-A22B のみです。他の FP8 モデルの要件は、非 FP8 バージョンと同じであるため、この表には記載されていません。たとえば、Qwen3-30B-A3B-FP8 に必要な計算能力を見つけるには、Qwen3-30B-A3B を参照してください。
モデル | 最大トークン数 (入力 + 出力) | 最小構成 | |
SGLang アクセラレーションデプロイ | vLLM アクセラレーションデプロイ | ||
Qwen3-235B-A22B | 32,768 (RoPE スケーリングあり: 131,072) | 32,768 (RoPE スケーリングあり: 131,072) | 8 × GPU H / GU120 (8 × 96 GB GPU メモリ) |
Qwen3-235B-A22B-FP8 | 32,768 (RoPE スケーリングあり: 131,072) | 32,768 (RoPE スケーリングあり: 131,072) | 4 × GPU H / GU120 (4 × 96 GB GPU メモリ) |
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B | 32,768 (RoPE スケーリングあり: 131,072) | 32,768 (RoPE スケーリングあり: 131,072) | 1 × GPU H / GU120 (96 GB GPU メモリ) |
Qwen3-14B Qwen3-14B-Base | 32,768 (RoPE スケーリングあり: 131,072) | 32,768 (RoPE スケーリングあり: 131,072) | 1 × GPU L / GU60 (48 GB GPU メモリ) |
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base | 32,768 (RoPE スケーリングあり: 131,072) | 32,768 (RoPE スケーリングあり: 131,072) | 1 × A10 / GU30 (24 GB GPU メモリ) 重要 RoPE スケーリングを使用した 8B モデルには 48 GB の GPU メモリが必要です。 |
よくある質問
Q: PAI にデプロイされたモデルで、複数の API 呼び出しにわたって会話のコンテキストを維持するにはどうすればよいですか?
いいえ、PAI にデプロイされたモデルサービスはステートレスです。各 API 呼び出しは独立しており、サーバーはリクエスト間でコンテキストを保持しません。
マルチターン対話を実装するには、クライアント側で会話履歴を管理する必要があります。新しい API 呼び出しごとに、messages ペイロードで会話履歴全体を渡す必要があります。例については、「マルチターン対話を実装するにはどうすればよいですか?」をご参照ください。