すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:クイックスタート: Qwen3 モデルのデプロイ、ファインチューニング、評価

最終更新日:Nov 15, 2025

Qwen3 は、Alibaba Cloud Qwen チームが 2024 年 4 月 29 日にリリースした最新の large 言語モデル (LLM) シリーズです。これには、2 つの Mixture-of-Experts (MoE) モデルと 6 つの Dense モデルが含まれています。広範なトレーニングに基づき、Qwen3 は推論、命令フォロー、エージェント機能、多言語サポートにおいて画期的な成果を上げています。Platform for AI (PAI) モデルギャラリーは、合計 22 のモデルについて、対応する Base モデルと FP8 モデルとともに、8 つすべてのモデルサイズへのアクセスを提供します。このガイドでは、モデルギャラリーで Qwen3 モデルシリーズをデプロイ、ファインチューニング、評価する方法について説明します。

モデルのデプロイと呼び出し

モデルのデプロイ

このセクションでは、SGLang を使用して Qwen3-235B-A22B モデルをデプロイする方法を示します。

  1. モデルギャラリーページに移動します。

    1. PAI コンソールにログインし、左上のコーナーでリージョンを選択します。リージョンを切り替えて、十分な計算リソースがあるリージョンを見つけることができます。

    2. 左側のナビゲーションウィンドウで、[Workspace Management] をクリックし、ターゲットワークスペースの名前をクリックします。

    3. 左側のナビゲーションウィンドウで、[Getting Started] > [Model Gallery] を選択します。

  2. モデルギャラリーページで、[Qwen3-235B-A22B] モデルカードをクリックして、モデルの詳細ページを開きます。

  3. 右上のコーナーで、[デプロイ] をクリックします。デプロイメントメソッドを選択し、必要なリソースを指定します。これにより、モデルが PAI Elastic Algorithm Service (EAS) にデプロイされます。

    デプロイメントリソース: モデルで必要な最小構成については、「付録: 必要な計算能力とサポートされるトークン数」をご参照ください。

    • EAS リソースグループ: 専用リソースの EAS 前払いに移動して、専用の EAS リソースを購入します。

    • パブリックリソース: これはデフォルトのオプションで、推奨される仕様が含まれています。システムはリソース仕様のリストを自動的にフィルターして、モデルで利用可能なパブリックリソースのみを表示します。すべてのオプションがグレー表示されている場合、リソースは在庫切れです。別のリージョンへの切り替えを検討してください。

      重要

      プリエンプティブルリソース (ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、および ml.gu8tf.8.40xlarge) は、中国 (ウランチャブ) リージョンでのみ利用可能で、許可リストは必要ありません。プリエンプティブルリソースは回収される可能性があるため、それに応じて入札してください。

    image

オンラインでのデバッグ

[サービス詳細] ページで、[オンラインデバッグ] をクリックします。次の図に例を示します。

image

API の呼び出し

  1. サービスエンドポイントとトークンを取得します。

    1. [モデルギャラリー] > [タスク管理] > [デプロイメントタスク] で、デプロイされたサービスの名前をクリックしてサービス詳細ページを開きます。

    2. [呼び出しメソッドの表示] をクリックして、サービスのエンドポイントとトークンを表示します。

      image

  2. 次の例は、SGLang デプロイメントの /v1/chat/completions エンドポイントを呼び出す方法を示しています。

    curl -X POST \
        -H "Content-Type: application/json" \
        -H "Authorization: <EAS_TOKEN>" \
        -d '{
            "model": "<model_name, get from the /v1/models API>",
            "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "hello!"
            }
            ]
        }' \
        <EAS_ENDPOINT>/v1/chat/completions
    from openai import OpenAI
    
    ##### API configuration #####
    # <EAS_ENDPOINT> をデプロイされたサービスのエンドポイントに、<EAS_TOKEN> をサービスのトークンに置き換えます。
    openai_api_key = "<EAS_TOKEN>"
    openai_api_base = "<EAS_ENDPOINT>/v1"
    
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    
    models = client.models.list()
    model = models.data[0].id
    print(model)
    
    stream = True
    chat_completion = client.chat.completions.create(
        messages=[
            {"role": "user", "content": "Hello, please introduce yourself."}
        ],
        model=model,
        max_completion_tokens=2048,
        stream=stream,
    )
    
    if stream:
        for chunk in chat_completion:
            print(chunk.choices[0].delta.content, end="")
    else:
        result = chat_completion.choices[0].message.content
        print(result)

    <EAS_ENDPOINT> をサービスのエンドポイントに、<EAS_TOKEN> をサービストークンに置き換えます。

呼び出しメソッドはデプロイメントタイプによって異なります。その他の例については、「大規模言語モデルのデプロイと API の呼び出し」をご参照ください。

サードパーティアプリケーションの統合

ChatboxDify、または Cherry Studio に接続するには、「サードパーティクライアントの統合」をご参照ください。

高度な構成

サービスの JSON 構成を変更することで、トークン制限の調整や tool calling の有効化などの高度な機能を有効にできます。

構成を変更するには: デプロイメントページで、[サービス構成] セクションの JSON を編集します。デプロイされたサービスの場合、デプロイメントページにアクセスするには更新する必要があります。

image

トークン制限の変更

Qwen3 モデルは、ネイティブで 32,768 のトークン長をサポートしています。RoPE スケーリング技術を使用してこれを最大 131,072 トークンまで拡張できますが、これによりわずかなパフォーマンスの低下が発生する可能性があります。これを行うには、サービス構成 JSON ファイルの containers.script フィールドを次のように変更します:

  • vLLM:

    vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072
  • SGLang:

    python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

ツール呼び出しの解析

vLLM と SGLang は、モデルのツール呼び出し出力を構造化メッセージに解析することをサポートしています。これを有効にするには、サービス構成 JSON ファイルの containers.script フィールドを次のように変更します:

  • vLLM:

    vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes
  • SGLang:

    python -m sglang.launch_server ... --tool-call-parser qwen25

思考モードの制御

Qwen3 はデフォルトで思考モードを使用します。この動作は、ハードスイッチ (思考を完全に無効にする) またはソフトスイッチ (モデルが思考するかどうかについてユーザーの指示に従う) で制御できます。

ソフトスイッチ /no_think の使用

リクエストボディの例:

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

ハードスイッチの使用

  • API パラメーターによる制御 (vLLM および SGLang の場合): API 呼び出しに chat_template_kwargs パラメーターを追加します。例:

    curl -X POST \
        -H "Content-Type: application/json" \
        -H "Authorization: <EAS_TOKEN>" \
        -d '{
            "model": "<MODEL_NAME>",
            "messages": [
                {
                    "role": "user",
                    "content": "Give me a short introduction to large language models."
                }
            ],
            "temperature": 0.7,
            "top_p": 0.8,
            "max_tokens": 8192,
            "presence_penalty": 1.5,
            "chat_template_kwargs": {"enable_thinking": false}
        }' \
        <EAS_ENDPOINT>/v1/chat/completions
    from openai import OpenAI
    # <EAS_ENDPOINT> をデプロイされたサービスのエンドポイントに、<EAS_TOKEN> をサービスのトークンに置き換えます。
    openai_api_key = "<<EAS_TOKEN>"
    openai_api_base = "<EAS_ENDPOINT>/v1"
    
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    
    chat_response = client.chat.completions.create(
        model="<MODEL_NAME>",
        messages=[
            {"role": "user", "content": "Give me a short introduction to large language models."},
        ],
        temperature=0.7,
        top_p=0.8,
        presence_penalty=1.5,
        extra_body={"chat_template_kwargs": {"enable_thinking": False}},
    )
    print("Chat response:", chat_response)

    <EAS_ENDPOINT> をサービスのエンドポイントに、<EAS_TOKEN> をサービストークンに、<MODEL_NAME>/v1/models API から取得したモデル名に置き換えます。

  • サービス構成の変更による無効化 (BladeLLM の場合): モデルの起動時にモデルが思考コンテンツを生成するのを防ぐチャットテンプレートを使用します。

    • モデルギャラリーのモデルの製品ページで、BladeLLM の思考モードを無効にする方法が提供されているか確認します。たとえば、Qwen3-8B では、サービス構成 JSON ファイルの containers.script フィールドを次のように変更することで思考モードを無効にできます:

      blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
    • カスタムチャットテンプレート (例: no_thinking.jinja) を作成し、OSS からマウントして、サービス構成 JSON ファイルの containers.script フィールドを変更します。

      image

思考コンテンツの解析

思考部分を個別に出力するには、サービス構成 JSON ファイルの containers.script フィールドを次のように変更します:

  • vLLM:

    vllm serve ... --enable-reasoning --reasoning-parser qwen3
  • SGLang:

    python -m sglang.launch_server ... --reasoning-parser deepseek-r1

モデルのファインチューニング

  • Qwen3-32B、14B、8B、4B、1.7B、および 0.6B モデルは、Supervised Fine-Tuning (SFT) をサポートしており、フルパラメーター、LoRA、または QLoRA ファインチューニング、および Generative Rejection-based Preference Optimization (GRPO) トレーニングが可能です。

  • ワンクリックでトレーニングタスクを送信し、ビジネスシナリオに合わせたモデルを作成します。

image

image

モデルの評価

モデル評価の詳細な手順については、「モデル評価」および「LLM 評価のベストプラクティス」をご参照ください。

付録: 必要な計算能力とサポートされるトークン数

次の表は、Qwen3 モデルをデプロイするために必要な最小構成と、さまざまな推論フレームワークおよびインスタンスタイプでサポートされる最大トークン数を示しています。

説明

FP8 モデルの中で、元のモデルよりも計算能力の要件が低いのは Qwen3-235B-A22B のみです。他の FP8 モデルの要件は、非 FP8 バージョンと同じであるため、この表には記載されていません。たとえば、Qwen3-30B-A3B-FP8 に必要な計算能力を見つけるには、Qwen3-30B-A3B を参照してください。

モデル

最大トークン数 (入力 + 出力)

最小構成

SGLang アクセラレーションデプロイ

vLLM アクセラレーションデプロイ

Qwen3-235B-A22B

32,768 (RoPE スケーリングあり: 131,072)

32,768 (RoPE スケーリングあり: 131,072)

8 × GPU H / GU120

(8 × 96 GB GPU メモリ)

Qwen3-235B-A22B-FP8

32,768 (RoPE スケーリングあり: 131,072)

32,768 (RoPE スケーリングあり: 131,072)

4 × GPU H / GU120

(4 × 96 GB GPU メモリ)

Qwen3-30B-A3B

Qwen3-30B-A3B-Base

Qwen3-32B

32,768 (RoPE スケーリングあり: 131,072)

32,768 (RoPE スケーリングあり: 131,072)

1 × GPU H / GU120

(96 GB GPU メモリ)

Qwen3-14B

Qwen3-14B-Base

32,768 (RoPE スケーリングあり: 131,072)

32,768 (RoPE スケーリングあり: 131,072)

1 × GPU L / GU60

(48 GB GPU メモリ)

Qwen3-8B

Qwen3-4B

Qwen3-1.7B

Qwen3-0.6B

Qwen3-8B-Base

Qwen3-4B-Base

Qwen3-1.7B-Base

Qwen3-0.6B-Base

32,768 (RoPE スケーリングあり: 131,072)

32,768 (RoPE スケーリングあり: 131,072)

1 × A10 / GU30

(24 GB GPU メモリ)

重要

RoPE スケーリングを使用した 8B モデルには 48 GB の GPU メモリが必要です。

よくある質問

Q: PAI にデプロイされたモデルで、複数の API 呼び出しにわたって会話のコンテキストを維持するにはどうすればよいですか?

いいえ、PAI にデプロイされたモデルサービスはステートレスです。各 API 呼び出しは独立しており、サーバーはリクエスト間でコンテキストを保持しません。

マルチターン対話を実装するには、クライアント側で会話履歴を管理する必要があります。新しい API 呼び出しごとに、messages ペイロードで会話履歴全体を渡す必要があります。例については、「マルチターン対話を実装するにはどうすればよいですか?」をご参照ください。