すべてのプロダクト
Search
ドキュメントセンター

Compute Nest:Compute Nest での Qwen3 シリーズモデルの迅速なデプロイ

最終更新日:Jun 09, 2025

Alibaba Cloud Compute Nest は、Qwen3 シリーズモデルの迅速なデプロイソリューションを提供し、Qwen3-235B や Qwen3-32B などの Qwen3 シリーズモデルを数分で非公開でデプロイできます。標準のモデルデプロイ環境やクラウド リソース オーケストレーションをデプロイする必要はなく、パラメーターを指定するだけで、エンタープライズ専用のモデルの推論エクスペリエンスを得ることができます。このトピックでは、Compute Nest で Qwen3 シリーズモデルを迅速にデプロイする方法について説明します。

Qwen3 とは

Qwen3 は、1 兆パラメーターのアーキテクチャに基づいて構築された、マルチモーダルデータと強化学習技術を深く統合した、Tongyi Qianwen シリーズの最新の巨大言語モデルです。 Qwen3 は、優れた自然言語理解および生成機能を備え、中国語と英語の両方に対応し、複数のプログラミング言語でのインタラクションをサポートしており、テキスト作成、論理的推論、コード生成などの複雑なタスクを効率的に完了できます。

課金

Compute Nest は無料で使用できます。 サービスのデプロイに使用される Alibaba Cloud リソースを使用すると、課金されます。

  • 選択した GPU インスタンスのインスタンスタイプ

  • Elastic ブロックストレージ

  • パブリック帯域幅

ビジネス要件に基づいて、従量課金またはサブスクリプションの課金方法を選択できます。 詳細な課金ルールと料金については、「課金対象項目」および「課金方法」をご参照ください。

RAM アカウントの権限

サービスインスタンスをデプロイするには、Resource Access Management (RAM) アカウントで Alibaba Cloud リソースにアクセスして作成する必要があります。 次の表に、サービスインスタンスを作成する前に RAM ユーザーに付与する必要がある権限 を示します。

ポリシー名

説明

AliyunECSFullAccess

Elastic Compute Service (ECS) を管理する権限

AliyunVPCFullAccess

仮想プライベートクラウド (VPC) を管理する権限

AliyunROSFullAccess

Resource Orchestration Service (ROS) を管理する権限

AliyunComputeNestUserFullAccess

Compute Nest ユーザー側の操作を管理する権限

手順

  1. LLM 推論サービス-ECS をクリックして、インスタンス作成ページに移動します。

  2. [サービスインスタンスの作成] ページで、サービスインスタンスの情報を設定します。 次の表に、指定する主要なパラメーターを示します。 ビジネス要件に基づいて他のパラメーターを設定できます。

    パラメーター

    説明

    [テンプレートの選択]

    [1 つの ECS] を選択します。

    [モデルタイプ]

    [Qwen] を選択します。

    [モデル名]

    [Qwen3-32B] を選択します。有効値: [Qwen3-235B-A22B][Qwen3-32B][Qwen3-8B]

    [インスタンスタイプ]

    [ecs.gn7i-8x.16xlarge] を選択します。 Qwen3-235B-A22B モデルをデプロイするには、してecs.ebmgn8v.48xlarge インスタンスタイプを選択します。

    [パブリックネットワークを開くか閉じるかを選択]

    インターネット接続を有効にするかどうかを指定します。 パフォーマンステストのシナリオでは、このパラメーターを [true] に設定します。

  3. [次へ: 注文の確認] をクリックします。 [サービスインスタンス情報] セクションと [価格プレビュー] セクションの情報を確認し、[今すぐ作成] をクリックします。

    説明

    作成時間はモデルによって異なります。

  4. サービスインスタンスをテストします。

    1. Compute Nest - サービスインスタンス ページに移動し、作成したサービスインスタンスをクリックします。

    2. [概要] タブの [今すぐ使用する] セクションで、[API 呼び出し例] をコピーします。

      image

    3. [リソース] タブで、[操作] 列の [リモート接続] をクリックして ECS インスタンスに接続します。 表示されるダイアログボックスで、[パスワードなしログオン] をクリックして ECS インスタンスにログオンします。

      image

    4. サンプル API 呼び出しの内容を貼り付けて、 Enter キーを押します。

      次の図に示すように、ストリーミングレスポンスが返されます。

      image

      説明

      ストリーミングレスポンスが不要な場合は、サンプル API 呼び出しコンテンツの streamfalse に変更できます。 リクエストが複雑な場合、ストリーミング以外の出力には時間がかかる場合があります。

その他の操作

モデルデプロイパラメーターのクエリ

  1. [ログ] タブで、[リソースタイプ] 列の [ALIYUN::ECS::RunCommand] を見つけ、[関連 ID] をコピーしてクリックし、[ECS クラウドアシスタント] ページに移動します。

    image

  2. [コマンド実行結果] タブで [ECS クラウドアシスタント] ページの関連 ID を貼り付けて、検索アイコンをクリックします。

    image

  3. [操作] 列の [表示] をクリックします。 [実行情報] タブの [コマンドコンテンツ] セクションで、モデルデプロイパラメーターを表示します。

    image

カスタムパラメーターを使用したモデルのデプロイ

カスタムパラメーターを指定してモデルをデプロイするには、次の手順を実行してサービスインスタンスを変更および再デプロイします。

  1. [リソース] タブで、[リモート接続] をクリックして ECS インスタンスに接続します。 表示されるダイアログボックスで、[パスワードなしログオン] をクリックして ECS インスタンスにログオンします。

    image

  2. モデルサービスを停止します。

    警告

    サービスを停止すると、ビジネスが中断されます。 この操作は、ビジネストラフィックが少ない時間帯に実行することをお勧めします。

    sudo docker stop vllm
    sudo docker rm vllm
  3. モデルデプロイコマンド を取得、変更、および実行します。

    この例では、仮想大規模言語モデル (vLLM) と SGlang のリファレンススクリプトが提供されています。 コメントを参照して、実行するスクリプトを変更できます。

    説明

    再デプロイには約 10 分かかります。

    vLLM

    sudo docker run -d -t --net=host \
     --gpus all \ # 使用可能なすべての GPU デバイスへのコンテナのアクセスを許可する
     --entrypoint /bin/bash \
     --privileged \
     --ipc=host \
     --name vllm \ # コンテナに認識しやすい名前 vllm を付ける
     -v /root:/root \ # ホストの /root ディレクトリをデータ共有のためにコンテナの /root にマウントする
     egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-pytorch2.5.1-cuda12.4-ubuntu22.04 \
     -c "pip install --upgrade vllm==0.8.2 && # バージョンをカスタマイズする (例: pip install vllm==0.7.1)
     export GLOO_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。
     export NCCL_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。
     vllm serve /root/llm-model/${ModelName} \  # サービスを使用してモデルを起動する
     --served-model-name ${ModelName} \  # サービスで使用するモデル名を指定する
     --gpu-memory-utilization 0.98 \ # GPU 使用率。高すぎると、他のプロセスで OOM が発生する可能性があります。有効値: 0 と 1。
     --max-model-len ${MaxModelLen} \ # 最大モデル長。値の範囲はモデル自体によって異なります。
     --enable-chunked-prefill \
     --host=0.0.0.0 \
     --port 8080 \
     --trust-remote-code \
     --api-key "${VLLM_API_KEY}" \ # オプション。API キーを設定します。必要ない場合は削除できます。
     --tensor-parallel-size $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" # 使用する GPU の数。デフォルトはすべての GPU です。

    SGlang

     # SGlang を含むパブリックイメージをダウンロードする
     sudo docker pull egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250224
    
     sudo docker run -d -t --net=host \
     --gpus all \ # 使用可能なすべての GPU デバイスへのコンテナのアクセスを許可する
     --entrypoint /bin/bash \
     --privileged \
     --ipc=host \
     --name llm-server \
     -v /root:/root \
     egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250224 \ 
     -c "pip install sglang==0.4.3 && # バージョンをカスタマイズする
     export GLOO_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。
     export NCCL_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。
     python3 -m sglang.launch_server \
     --model-path /root/llm-model/${ModelName} \ # サービスを使用してモデルを起動する
     --served-model-name ${ModelName} \ # サービスで使用するモデル名を指定する
     --tp $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" \ # 使用する GPU の数。デフォルトはすべての GPU です。
     --trust-remote-code \
     --host 0.0.0.0 \
     --port 8080 \
     --mem-fraction-static 0.9 # GPU 使用率。高すぎると、他のプロセスで OOM が発生する可能性があります。有効値: 0 と 1。

    リクエスト成功の例。

    image

  4. モデルサービスが想定どおりに実行されているかどうかを確認します。 次の図に示す結果が返された場合、モデルサービスは正常に再デプロイされています。

    sudo docker ps
    sudo docker logs vllm  

    image

    image

パフォーマンステストの例

Qwen3-235B-A22B ストレステスト

この例では、ecs.ebmgn8v.48xlarge インスタンスタイプのインスタンスで、20 クエリ/秒 (QPS) と 50 QPS で Qwen3-235B-A22B モデルサービスの推論応答パフォーマンスをテストします。 ストレステストは 1 分間続きます。

  • QPS が 20 に設定され、1 分以内に 1,200 件のリクエストが送信されるテスト

    image

  • QPS が 50 に設定され、1 分以内に 3,000 件のリクエストが送信されるテスト

    image

Qwen3-32B ストレステスト

この例では、ecs.gn7i-8x.16xlarge インスタンスタイプのインスタンスで、20 QPS と 50 QPS で Qwen3-32B モデルサービスの推論応答パフォーマンスをテストします。 ストレステストは 1 分間続きます。

  • QPS が 20 に設定され、1 分以内に 1,200 件のリクエストが送信されるテスト

    image

  • QPS が 50 に設定され、1 分以内に 3,000 件のリクエストが送信されるテスト

    image

説明

ストレステストプロセスの詳細については、「ストレステストプロセスの説明」をご参照ください。