クイックスタート: Qwen3モデルのデプロイ、ファインチューニング、評価 - Platform For AI

Qwen3は、Alibaba CloudのQwenチームが2025年4月29日にリリースした最新の大規模言語モデル (LLM) シリーズです。このシリーズには、2つのMixture-of-Experts (MoE) モデルと6つの稠密モデルが含まれています。これらのモデルは広範なトレーニングを経ており、推論、命令追従、エージェント機能、多言語サポートにおいて画期的なパフォーマンスを発揮します。PAI-Model Galleryでは、これら8つのモデルサイズすべてを、Baseおよび8ビット浮動小数点 (FP8) バージョンを含め、合計22モデル提供しています。このトピックでは、Model Galleryでこれらのモデルをデプロイ、ファインチューニング、評価する方法について説明します。

モデルのデプロイと呼び出し

モデルのデプロイ

このセクションでは、SGLangを使用してQwen3-235B-A22Bモデルをデプロイする例を示します。

Model Galleryページに移動します。
1. PAIコンソールにログインします。左上隅で、利用可能な計算リソースがあるリージョンを選択します。
2. 左側のナビゲーションウィンドウで、[ワークスペース一覧] を選択し、アクセスするワークスペースの名前をクリックします。
3. 左側のナビゲーションウィンドウで、[クイックスタート] ＞ [モデルギャラリー] を選択します。
モデルギャラリーページで、[Qwen3-235B-A22B] モデルカードを見つけてクリックして、モデルの詳細を表示します。
右上隅で、[デプロイ] をクリックします。以下のパラメーターを設定し、その他のパラメーターはデフォルト設定のままにして、モデルを PAI-EAS 推論サービスプラットフォームにデプロイします。
- Deployment Method: Inference Engine を SGLang に、Deployment Template をシングルマシンに設定します。
- Resource Information: Resource Type で、パブリックリソースを選択します。推奨仕様が提供されています。モデルに必要な最小構成については、「デプロイメントに必要な計算能力およびサポートされるトークン数」をご参照ください。
  重要
  利用可能なリソーススペックがない場合、そのリージョンのパブリックリソースは在庫切れです。以下のソリューションを試すことができます。
  - リージョンを切り替える。例えば、中国 (ウランチャブ) リージョンには、Lingjunプリエンプティブインスタンス (ml.gu7ef.8xlarge-gu100, ml.gu7xf.8xlarge-gu108, ml.gu8xf.8xlarge-gu108, ml.gu8tf.8.40xlarge) の大量の在庫があります。プリエンプティブインスタンスは回収される可能性があるため、入札を監視してください。
  - EASリソースグループを使用する。専用EASリソースを購入するには、EAS専用リソースのサブスクリプションにアクセスしてください。

オンラインデバッグ

次の図に示すように、[サービス詳細] ページの下部で [オンラインデバッグ] をクリックします。

API呼び出し

サービスエンドポイントとトークンを取得します。
1. [モデルギャラリー] > [タスク管理] > [デプロイメント] に移動します。デプロイされたサービスの名前をクリックすると、その詳細が表示されます。
2. [エンドポイント情報の表示] をクリックして、インターネットエンドポイントとトークンを取得します。

以下の例は、SGLangデプロイメントの/v1/chat/completionsチャットAPIを呼び出す方法を示しています。

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<Model name, obtained from the '/v1/models' API>",
        "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "hello!"
        }
        ]
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI

##### API Configuration #####
# Replace <EAS_ENDPOINT> with the service endpoint and <EAS_TOKEN> with the service token.
openai_api_key = "<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

models = client.models.list()
model = models.data[0].id
print(model)

stream = True
chat_completion = client.chat.completions.create(
    messages=[
        {"role": "user", "content": "Hello, please introduce yourself."}
    ],
    model=model,
    max_completion_tokens=2048,
    stream=stream,
)

if stream:
    for chunk in chat_completion:
        print(chunk.choices[0].delta.content, end="")
else:
    result = chat_completion.choices[0].message.content
    print(result)

<EAS_ENDPOINT>をサービスエンドポイントに、<EAS_TOKEN>をサービストークンに置き換えます。

呼び出し方法は、デプロイ方法によって異なります。API呼び出しの詳細については、「LLM API呼び出し」をご参照ください。

サードパーティアプリケーションとの統合

Chatbox、Dify、またはCherry Studioに接続するには、「サードパーティクライアントとの統合」をご参照ください。

高度な構成

サービスのJSON構成を変更することで、トークン制限の調整やツール呼び出し (Function Calling) の有効化など、高度な機能を有効にできます。

手順: デプロイメントページで、[サービス構成] セクションに移動し、JSON を編集します。サービスがすでにデプロイ済みの場合は、デプロイメントページにアクセスするために更新します。

トークン制限の変更

Qwen3モデルは、ネイティブで32,768のトークン長をサポートしています。RoPEスケーリング技術を使用することで、最大131,072のトークン長をサポートできますが、これによりパフォーマンスが低下する可能性があります。これを行うには、サービス構成JSONファイルのcontainers.scriptフィールドを次のように変更します。

vLLM:

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

SGLang:

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

ツール呼び出しの解析

vLLMとSGLangは、モデルによって生成されたツール呼び出しコンテンツを構造化メッセージに解析することをサポートしています。これを有効にするには、サービス構成JSONファイルのcontainers.scriptフィールドを次のように変更します。

vLLM:

vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes

SGLang:

python -m sglang.launch_server ... --tool-call-parser qwen25

思考モードの制御

Qwen3はデフォルトで思考モードを使用します。この機能は、思考を完全に無効にするハードスイッチ、またはモデルがユーザーの指示に従って思考するかどうかを制御するソフトスイッチで制御できます。

ソフトスイッチ /no_think の使用

以下のコードはリクエストボディのサンプルを示しています。

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

ハードスイッチの使用

APIパラメーターによる制御 (vLLMおよびSGLangの場合): chat_template_kwargsパラメーターをAPI呼び出しに追加します。以下のコードは例を示しています。

curl

curl -X POST \
    -H "Content-Type: application/json" \
    -H "Authorization: <EAS_TOKEN>" \
    -d '{
        "model": "<MODEL_NAME>",
        "messages": [
            {
                "role": "user",
                "content": "Give me a short introduction to large language models."
            }
        ],
        "temperature": 0.7,
        "top_p": 0.8,
        "max_tokens": 8192,
        "presence_penalty": 1.5,
        "chat_template_kwargs": {"enable_thinking": false}
    }' \
    <EAS_ENDPOINT>/v1/chat/completions

Python

from openai import OpenAI
# # Replace <EAS_ENDPOINT> with the service endpoint and <EAS_TOKEN> with the service token.
openai_api_key = "<<EAS_TOKEN>"
openai_api_base = "<EAS_ENDPOINT>/v1"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
    model="<MODEL_NAME>",
    messages=[
        {"role": "user", "content": "Give me a short introduction to large language models."},
    ],
    temperature=0.7,
    top_p=0.8,
    presence_penalty=1.5,
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)
print("Chat response:", chat_response)

<EAS_ENDPOINT>をサービスエンドポイントに、<EAS_TOKEN>をサービストークンに、<MODEL_NAME>を/v1/models APIから取得した実際のモデル名に置き換えます。

サービス構成を変更して無効にする (BladeLLMの場合): モデルの起動時に思考コンテンツが生成されないようにするチャットテンプレートを使用できます。
- Model Galleryのモデル紹介ページで、BladeLLMの思考モードを無効にする方法が提供されているか確認します。例えば、Qwen3-8Bでは、サービス構成JSONファイルのcontainers.scriptフィールドを次のように変更することで、思考モードを無効にできます。
```
blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
```
- no_thinking.jinjaのような独自のチャットテンプレートを作成し、OSSから読み取り用にマウントして、サービス構成JSONファイルのcontainers.scriptフィールドを変更できます。

思考コンテンツの解析

「思考」部分を個別にに出力するには、サービス構成JSONファイルのcontainers.scriptフィールドを次のように変更します。

vLLM:

vllm serve ... --enable-reasoning --reasoning-parser qwen3

SGLang:

python -m sglang.launch_server ... --reasoning-parser deepseek-r1

モデルのファインチューニング

Qwen3-32B、14B、8B、4B、1.7B、0.6Bモデルは、教師ありファインチューニング (SFT) (全パラメーター、LoRA、またはQLoRA) およびGRPOトレーニングをサポートしています。
ワンクリックでトレーニングタスクを送信し、ビジネスシナリオに特化したモデルをトレーニングできます。

モデルの評価

モデル評価の詳細な手順については、「モデルの評価」および「LLM評価のベストプラクティス」をご参照ください。

付録: デプロイに必要な計算能力とサポートされるトークン数

以下の表は、Qwen3デプロイメントに必要な最小構成と、さまざまなインスタンスタイプを使用した場合の異なる推論フレームワークでサポートされる最大トークン数を示しています。

説明

FP8モデルのうち、Qwen3-235B-A22Bモデルのみが元のモデルと比較して計算能力要件が削減されています。他のFP8モデルの計算能力要件は非FP8モデルと同じであるため、表には記載されていません。例えば、Qwen3-30B-A3B-FP8に必要な計算能力を見つけるには、Qwen3-30B-A3Bをご参照ください。

モデル	サポートされる最大トークン数 (入力 + 出力)		最小構成
モデル	SGLang高速化デプロイメント	vLLM高速化デプロイメント	最小構成
Qwen3-235B-A22B	32768 (RoPEスケーリング使用時: 131072)	32768 (RoPEスケーリング使用時: 131072)	8 × GPU H / GU120 (8 × 96 GB VRAM)
Qwen3-235B-A22B-FP8	32768 (RoPEスケーリング使用時: 131072)	32768 (RoPEスケーリング使用時: 131072)	4 × GPU H / GU120 (4 × 96 GB VRAM)
Qwen3-30B-A3B Qwen3-30B-A3B-Base Qwen3-32B	32768 (RoPEスケーリング使用時: 131072)	32768 (RoPEスケーリング使用時: 131072)	1 × GPU H / GU120 (96 GB VRAM)
Qwen3-14B Qwen3-14B-Base	32768 (RoPEスケーリング使用時: 131072)	32768 (RoPEスケーリング使用時: 131072)	1 × GPU L / GU60 (48 GB VRAM)
Qwen3-8B Qwen3-4B Qwen3-1.7B Qwen3-0.6B Qwen3-8B-Base Qwen3-4B-Base Qwen3-1.7B-Base Qwen3-0.6B-Base	32768 (RoPEスケーリング使用時: 131072)	32768 (RoPEスケーリング使用時: 131072)	1 × A10 / GU30 (24 GB VRAM) 重要 RoPEスケーリングが有効になっている場合、8Bモデルには48 GBのVRAMが必要です。

よくある質問

Q: PAIにデプロイされたモデルサービスは、セッション機能 (複数のリクエスト間でコンテキストを維持する機能) をサポートしていますか？

いいえ、サポートしていません。PAIにデプロイされたモデルサービスAPIはステートレスです。各呼び出しは独立しており、サーバーはリクエスト間でコンテキストやセッション状態を保持しません。

マルチターン対話を実装するには、クライアントが会話履歴を保存し、後続のモデル呼び出しリクエストに含める必要があります。リクエスト例については、「マルチターン対話を実装するにはどうすればよいですか？」をご参照ください。