すべてのプロダクト
Search
ドキュメントセンター

Platform For AI:クイックスタート:Qwen3 モデルのデプロイ、ファインチューニング、評価

最終更新日:Dec 19, 2025

Qwen3 は、Alibaba Cloud Qwen チームが 2024 年 4 月 29 日にリリースした最新の大規模言語モデル (LLM) シリーズです。これには、2 つの Mixture-of-Experts (MoE) モデルと 6 つの Dense モデルが含まれます。広範なトレーニングに基づき、Qwen3 は推論、指示追従、エージェント機能、および多言語サポートにおいて画期的な進歩を遂げています。Platform for AI (PAI) の Model Gallery では、これら 8 つのモデルサイズすべてと、対応する Base モデルおよび FP8 モデル、合計 22 のモデルにアクセスできます。このガイドでは、Model Gallery で Qwen3 モデルシリーズをデプロイ、ファインチューニング、評価する方法について説明します。

モデルのデプロイと呼び出し

モデルのデプロイ

このセクションでは、SGLang を使用して Qwen3-235B-A22B モデルをデプロイする方法を説明します。

  1. Model Gallery ページに移動します。

    1. PAI コンソールにログインし、左上でリージョンを選択します。リージョンを切り替えて、十分な計算リソースがあるリージョンを見つけることができます。

    2. 左側メニューで、[Workspace Management] をクリックし、ターゲットワークスペースの名前をクリックします。

    3. 左側メニューで、[QuickStart] > [Model Gallery] を選択します。

  2. Model Gallery ページで、[Qwen3-235B-A22B] モデルカードをクリックして、モデルの詳細ページを開きます。

  3. 右上の [Deploy] をクリックします。以下のパラメーターを設定し、他のパラメーターはデフォルト値を使用して、モデルを Elastic Algorithm Service (EAS) にデプロイします。

    • Deployment MethodInference Engine を SGLang に設定し、Deployment Template を Single-Node に設定します。

    • Resource InformationResource Type をパブリックリソースに設定します。システムが自動的にインスタンスタイプを推奨します。最小構成については、「必要な計算能力とサポートされるトークン数」をご参照ください。

    • 重要

      利用可能なインスタンスタイプがない場合、そのリージョンのパブリックリソースの在庫が不足していることを意味します。以下のオプションをご検討ください。

      • リージョンの切り替え。例えば、中国 (ウランチャブ) リージョンには、ml.gu7ef.8xlarge-gu100、ml.gu7xf.8xlarge-gu108、ml.gu8xf.8xlarge-gu108、ml.gu8tf.8.40xlarge などの Lingjun プリエンプティブルリソースの在庫が豊富にあります。プリエンプティブルリソースは回収される可能性があるため、入札にはご注意ください。

      • EAS リソースグループの使用EAS 専用リソースサブスクリプションから専用の EAS リソースを購入できます。

    image

オンラインでのデバッグ

[Service Details] ページで、[Online Debugging] をクリックします。以下の図に例を示します。

image

API の呼び出し

  1. サービスエンドポイントとトークンを取得します。

    1. [Model Gallery] > [Job Management] > [Deployment Jobs] で、デプロイされたサービスの名前をクリックしてサービス詳細ページを開きます。

    2. [View Invocation Method] をクリックして、[Internet Endpoint] とトークンを表示します。

      image

  2. 以下の例は、SGLang デプロイの /v1/chat/completions エンドポイントを呼び出す方法を示しています。

    curl -X POST \
        -H "Content-Type: application/json" \
        -H "Authorization: <EAS_TOKEN>" \
        -d '{
            "model": "<model_name, get from the /v1/models API>",
            "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "hello!"
            }
            ]
        }' \
        <EAS_ENDPOINT>/v1/chat/completions
    from openai import OpenAI
    
    ##### API configuration #####
    # <EAS_ENDPOINT> をデプロイされたサービスのエンドポイントに、<EAS_TOKEN> をサービスのトークンに置き換えます。
    openai_api_key = "<EAS_TOKEN>"
    openai_api_base = "<EAS_ENDPOINT>/v1"
    
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    
    models = client.models.list()
    model = models.data[0].id
    print(model)
    
    stream = True
    chat_completion = client.chat.completions.create(
        messages=[
            {"role": "user", "content": "Hello, please introduce yourself."}
        ],
        model=model,
        max_completion_tokens=2048,
        stream=stream,
    )
    
    if stream:
        for chunk in chat_completion:
            print(chunk.choices[0].delta.content, end="")
    else:
        result = chat_completion.choices[0].message.content
        print(result)

    <EAS_ENDPOINT> をサービスのエンドポイントに、<EAS_TOKEN> をサービストークンに置き換えてください。

呼び出し方法はデプロイタイプによって異なります。その他の例については、「大規模言語モデルのデプロイと API の呼び出し」をご参照ください。

サードパーティアプリケーションの統合

ChatboxDify、または Cherry Studio に接続するには、「サードパーティクライアントの統合」をご参照ください。

高度な設定

サービスの JSON 設定を変更することで、トークン制限の調整や ツール呼び出し の有効化などの高度な機能を有効にできます。

設定を変更するには:デプロイページで、[Service Configuration] セクションの JSON を編集します。デプロイ済みのサービスの場合、更新ページで JSON を編集できます。

image

トークン制限の変更

Qwen3 モデルは、ネイティブで 32,768 のトークン長をサポートしています。RoPE スケーリング技術を使用してこれを最大 131,072 トークンまで拡張できますが、パフォーマンスがわずかに低下する可能性があります。これを行うには、サービス設定 JSON の containers.script フィールドを次のように変更します。

  • vLLM:

    vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072
  • SGLang:

    python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

ツール呼び出しの解析

vLLM と SGLang は、モデルのツール呼び出し出力を構造化されたメッセージに解析できます。有効にするには、サービス設定 JSON の containers.script フィールドを次のように変更します。

  • vLLM:

    vllm serve ... --enable-auto-tool-choice --tool-call-parser hermes
  • SGLang:

    python -m sglang.launch_server ... --tool-call-parser qwen25

思考モードの制御

Qwen3 はデフォルトで思考モードを使用します。この動作は、ハードスイッチ (思考を完全に無効にする) またはソフトスイッチ (モデルが思考するかどうかについてユーザーの指示に従う) で制御できます。

「no_think」でのソフトスイッチ

リクエストボディの例:

{
  "model": "<MODEL_NAME>",
  "messages": [
    {
      "role": "user",
      "content": "/no_think Hello!"
    }
  ],
  "max_tokens": 1024
}

ハードスイッチ

  • API パラメーターによる制御 (vLLM および SGLang の場合):API 呼び出しに chat_template_kwargs パラメーターを追加します。例:

    curl -X POST \
        -H "Content-Type: application/json" \
        -H "Authorization: <EAS_TOKEN>" \
        -d '{
            "model": "<MODEL_NAME>",
            "messages": [
                {
                    "role": "user",
                    "content": "Give me a short introduction to large language models."
                }
            ],
            "temperature": 0.7,
            "top_p": 0.8,
            "max_tokens": 8192,
            "presence_penalty": 1.5,
            "chat_template_kwargs": {"enable_thinking": false}
        }' \
        <EAS_ENDPOINT>/v1/chat/completions
    from openai import OpenAI
    # <EAS_ENDPOINT> をデプロイされたサービスのエンドポイントに、<EAS_TOKEN> をサービスのトークンに置き換えてください。
    openai_api_key = "<<EAS_TOKEN>"
    openai_api_base = "<EAS_ENDPOINT>/v1"
    
    client = OpenAI(
        api_key=openai_api_key,
        base_url=openai_api_base,
    )
    
    chat_response = client.chat.completions.create(
        model="<MODEL_NAME>",
        messages=[
            {"role": "user", "content": "Give me a short introduction to large language models."},
        ],
        temperature=0.7,
        top_p=0.8,
        presence_penalty=1.5,
        extra_body={"chat_template_kwargs": {"enable_thinking": False}},
    )
    print("Chat response:", chat_response)

    <EAS_ENDPOINT> をサービスのエンドポイントに、<EAS_TOKEN> をサービストークンに、<MODEL_NAME>/v1/models API から取得したモデル名に置き換えてください。

  • サービス設定の変更による無効化 (BladeLLM の場合):モデルの起動時にモデルが思考コンテンツを生成するのを防ぐチャットテンプレートを使用します。

    • Model Gallery のモデルの製品ページで、BladeLLM の思考モードを無効にする方法が提供されているか確認します。たとえば、Qwen3-8B では、サービス設定 JSON の containers.script フィールドを次のように変更することで思考モードを無効にできます。

      blade_llm_server ... --chat_template /model_dir/no_thinking.jinja
    • カスタムチャットテンプレート (例: no_thinking.jinja) を作成し、OSS からマウントして、サービス設定 JSON の containers.script フィールドを変更します。

      image

思考コンテンツの解析

思考部分を個別に出力するには、サービス設定 JSON ファイルの containers.script フィールドを次のように変更します。

  • vLLM:

    vllm serve ... --enable-reasoning --reasoning-parser qwen3
  • SGLang:

    python -m sglang.launch_server ... --reasoning-parser deepseek-r1

モデルのファインチューニング

  • Qwen3-32B、14B、8B、4B、1.7B、および 0.6B モデルは、Supervised Fine-Tuning (SFT) をサポートしており、フルパラメーター、LoRA、または QLoRA ファインチューニング、および Generative Rejection-based Preference Optimization (GRPO) トレーニングが可能です。

  • ワンクリックでトレーニングタスクを送信し、ビジネスシナリオに合わせたモデルを作成できます。

image

image

モデルの評価

モデル評価の詳細な手順については、「モデル評価」および「LLM 評価のベストプラクティス」をご参照ください。

付録:必要な計算能力とサポートされるトークン数

次の表は、Qwen3 モデルをデプロイするために必要な最小構成と、さまざまな推論フレームワークおよびインスタンスタイプでサポートされる最大トークン数を示しています。

説明

FP8 モデルの中で、元のモデルよりも計算能力の要件が低いのは Qwen3-235B-A22B のみです。他の FP8 モデルの要件は、非 FP8 バージョンと同じであるため、この表には記載されていません。たとえば、Qwen3-30B-A3B-FP8 に必要な計算能力を見つけるには、Qwen3-30B-A3B を参照してください。

モデル

最大トークン数 (入力 + 出力)

最小構成

SGLang アクセラレーションデプロイ

vLLM アクセラレーションデプロイ

Qwen3-235B-A22B

32,768 (RoPE スケーリング使用時:131,072)

32,768 (RoPE スケーリング使用時:131,072)

8 × GPU H / GU120

(8 × 96 GB GPU メモリ)

Qwen3-235B-A22B-FP8

32,768 (RoPE スケーリング使用時:131,072)

32,768 (RoPE スケーリング使用時:131,072)

4 × GPU H / GU120

(4 × 96 GB GPU メモリ)

Qwen3-30B-A3B

Qwen3-30B-A3B-Base

Qwen3-32B

32,768 (RoPE スケーリング使用時:131,072)

32,768 (RoPE スケーリング使用時:131,072)

1 × GPU H / GU120

(96 GB GPU メモリ)

Qwen3-14B

Qwen3-14B-Base

32,768 (RoPE スケーリング使用時:131,072)

32,768 (RoPE スケーリング使用時:131,072)

1 × GPU L / GU60

(48 GB GPU メモリ)

Qwen3-8B

Qwen3-4B

Qwen3-1.7B

Qwen3-0.6B

Qwen3-8B-Base

Qwen3-4B-Base

Qwen3-1.7B-Base

Qwen3-0.6B-Base

32,768 (RoPE スケーリング使用時:131,072)

32,768 (RoPE スケーリング使用時:131,072)

1 × A10 / GU30

(24 GB GPU メモリ)

重要

RoPE スケーリングを使用した 8B モデルには 48 GB の GPU メモリが必要です。

よくある質問

Q:PAI にデプロイされたモデルで、複数の API 呼び出しにまたがって会話コンテキストを維持するにはどうすればよいですか?

PAI にデプロイされたモデルサービスはステートレスです。各 API 呼び出しは独立しており、サーバーはリクエスト間でコンテキストを保持しません。

マルチターン対話を実装するには、クライアント側で会話履歴を管理する必要があります。新しい API 呼び出しごとに、messages ペイロードで会話履歴全体を渡す必要があります。例については、「マルチターン対話を実装するにはどうすればよいですか?」をご参照ください。