Alibaba Cloud Compute Nest は、Qwen3 シリーズモデルの迅速なデプロイソリューションを提供し、Qwen3-235B や Qwen3-32B などの Qwen3 シリーズモデルを数分で非公開でデプロイできます。標準のモデルデプロイ環境やクラウド リソース オーケストレーションをデプロイする必要はなく、パラメーターを指定するだけで、エンタープライズ専用のモデルの推論エクスペリエンスを得ることができます。このトピックでは、Compute Nest で Qwen3 シリーズモデルを迅速にデプロイする方法について説明します。
Qwen3 とは
Qwen3 は、1 兆パラメーターのアーキテクチャに基づいて構築された、マルチモーダルデータと強化学習技術を深く統合した、Tongyi Qianwen シリーズの最新の巨大言語モデルです。 Qwen3 は、優れた自然言語理解および生成機能を備え、中国語と英語の両方に対応し、複数のプログラミング言語でのインタラクションをサポートしており、テキスト作成、論理的推論、コード生成などの複雑なタスクを効率的に完了できます。
課金
Compute Nest は無料で使用できます。 サービスのデプロイに使用される Alibaba Cloud リソースを使用すると、課金されます。
選択した GPU インスタンスのインスタンスタイプ
Elastic ブロックストレージ
パブリック帯域幅
ビジネス要件に基づいて、従量課金またはサブスクリプションの課金方法を選択できます。 詳細な課金ルールと料金については、「課金対象項目」および「課金方法」をご参照ください。
RAM アカウントの権限
サービスインスタンスをデプロイするには、Resource Access Management (RAM) アカウントで Alibaba Cloud リソースにアクセスして作成する必要があります。 次の表に、サービスインスタンスを作成する前に RAM ユーザーに付与する必要がある権限 を示します。
ポリシー名 | 説明 |
AliyunECSFullAccess | Elastic Compute Service (ECS) を管理する権限 |
AliyunVPCFullAccess | 仮想プライベートクラウド (VPC) を管理する権限 |
AliyunROSFullAccess | Resource Orchestration Service (ROS) を管理する権限 |
AliyunComputeNestUserFullAccess | Compute Nest ユーザー側の操作を管理する権限 |
手順
LLM 推論サービス-ECS をクリックして、インスタンス作成ページに移動します。
[サービスインスタンスの作成] ページで、サービスインスタンスの情報を設定します。 次の表に、指定する主要なパラメーターを示します。 ビジネス要件に基づいて他のパラメーターを設定できます。
パラメーター
説明
[テンプレートの選択]
[1 つの ECS] を選択します。
[モデルタイプ]
[Qwen] を選択します。
[モデル名]
[Qwen3-32B] を選択します。有効値: [Qwen3-235B-A22B]、[Qwen3-32B]、[Qwen3-8B]。
[インスタンスタイプ]
[ecs.gn7i-8x.16xlarge] を選択します。 Qwen3-235B-A22B モデルをデプロイするには、して、ecs.ebmgn8v.48xlarge インスタンスタイプを選択します。
[パブリックネットワークを開くか閉じるかを選択]
インターネット接続を有効にするかどうかを指定します。 パフォーマンステストのシナリオでは、このパラメーターを [true] に設定します。
[次へ: 注文の確認] をクリックします。 [サービスインスタンス情報] セクションと [価格プレビュー] セクションの情報を確認し、[今すぐ作成] をクリックします。
説明作成時間はモデルによって異なります。
サービスインスタンスをテストします。
Compute Nest - サービスインスタンス ページに移動し、作成したサービスインスタンスをクリックします。
[概要] タブの [今すぐ使用する] セクションで、[API 呼び出し例] をコピーします。

[リソース] タブで、[操作] 列の [リモート接続] をクリックして ECS インスタンスに接続します。 表示されるダイアログボックスで、[パスワードなしログオン] をクリックして ECS インスタンスにログオンします。

サンプル API 呼び出しの内容を貼り付けて、 Enter キーを押します。
次の図に示すように、ストリーミングレスポンスが返されます。
説明ストリーミングレスポンスが不要な場合は、サンプル API 呼び出しコンテンツの
streamをfalseに変更できます。 リクエストが複雑な場合、ストリーミング以外の出力には時間がかかる場合があります。
その他の操作
モデルデプロイパラメーターのクエリ
[ログ] タブで、[リソースタイプ] 列の [ALIYUN::ECS::RunCommand] を見つけ、[関連 ID] をコピーしてクリックし、[ECS クラウドアシスタント] ページに移動します。

[コマンド実行結果] タブで [ECS クラウドアシスタント] ページの関連 ID を貼り付けて、検索アイコンをクリックします。

[操作] 列の [表示] をクリックします。 [実行情報] タブの [コマンドコンテンツ] セクションで、モデルデプロイパラメーターを表示します。

カスタムパラメーターを使用したモデルのデプロイ
カスタムパラメーターを指定してモデルをデプロイするには、次の手順を実行してサービスインスタンスを変更および再デプロイします。
[リソース] タブで、[リモート接続] をクリックして ECS インスタンスに接続します。 表示されるダイアログボックスで、[パスワードなしログオン] をクリックして ECS インスタンスにログオンします。

モデルサービスを停止します。
警告サービスを停止すると、ビジネスが中断されます。 この操作は、ビジネストラフィックが少ない時間帯に実行することをお勧めします。
sudo docker stop vllm sudo docker rm vllmモデルデプロイコマンド を取得、変更、および実行します。
この例では、仮想大規模言語モデル (vLLM) と SGlang のリファレンススクリプトが提供されています。 コメントを参照して、実行するスクリプトを変更できます。
説明再デプロイには約 10 分かかります。
vLLM
sudo docker run -d -t --net=host \ --gpus all \ # 使用可能なすべての GPU デバイスへのコンテナのアクセスを許可する --entrypoint /bin/bash \ --privileged \ --ipc=host \ --name vllm \ # コンテナに認識しやすい名前 vllm を付ける -v /root:/root \ # ホストの /root ディレクトリをデータ共有のためにコンテナの /root にマウントする egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-pytorch2.5.1-cuda12.4-ubuntu22.04 \ -c "pip install --upgrade vllm==0.8.2 && # バージョンをカスタマイズする (例: pip install vllm==0.7.1) export GLOO_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。 export NCCL_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。 vllm serve /root/llm-model/${ModelName} \ # サービスを使用してモデルを起動する --served-model-name ${ModelName} \ # サービスで使用するモデル名を指定する --gpu-memory-utilization 0.98 \ # GPU 使用率。高すぎると、他のプロセスで OOM が発生する可能性があります。有効値: 0 と 1。 --max-model-len ${MaxModelLen} \ # 最大モデル長。値の範囲はモデル自体によって異なります。 --enable-chunked-prefill \ --host=0.0.0.0 \ --port 8080 \ --trust-remote-code \ --api-key "${VLLM_API_KEY}" \ # オプション。API キーを設定します。必要ない場合は削除できます。 --tensor-parallel-size $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" # 使用する GPU の数。デフォルトはすべての GPU です。SGlang
# SGlang を含むパブリックイメージをダウンロードする sudo docker pull egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250224 sudo docker run -d -t --net=host \ --gpus all \ # 使用可能なすべての GPU デバイスへのコンテナのアクセスを許可する --entrypoint /bin/bash \ --privileged \ --ipc=host \ --name llm-server \ -v /root:/root \ egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250224 \ -c "pip install sglang==0.4.3 && # バージョンをカスタマイズする export GLOO_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。 export NCCL_SOCKET_IFNAME=eth0 && # VPC ネットワーク通信に必要な環境変数。削除または変更しないでください。 python3 -m sglang.launch_server \ --model-path /root/llm-model/${ModelName} \ # サービスを使用してモデルを起動する --served-model-name ${ModelName} \ # サービスで使用するモデル名を指定する --tp $(nvidia-smi --query-gpu=index --format=csv,noheader | wc -l | awk '{print $1}')" \ # 使用する GPU の数。デフォルトはすべての GPU です。 --trust-remote-code \ --host 0.0.0.0 \ --port 8080 \ --mem-fraction-static 0.9 # GPU 使用率。高すぎると、他のプロセスで OOM が発生する可能性があります。有効値: 0 と 1。リクエスト成功の例。

モデルサービスが想定どおりに実行されているかどうかを確認します。 次の図に示す結果が返された場合、モデルサービスは正常に再デプロイされています。
sudo docker ps sudo docker logs vllm

パフォーマンステストの例
Qwen3-235B-A22B ストレステスト
この例では、ecs.ebmgn8v.48xlarge インスタンスタイプのインスタンスで、20 クエリ/秒 (QPS) と 50 QPS で Qwen3-235B-A22B モデルサービスの推論応答パフォーマンスをテストします。 ストレステストは 1 分間続きます。
QPS が 20 に設定され、1 分以内に 1,200 件のリクエストが送信されるテスト

QPS が 50 に設定され、1 分以内に 3,000 件のリクエストが送信されるテスト

Qwen3-32B ストレステスト
この例では、ecs.gn7i-8x.16xlarge インスタンスタイプのインスタンスで、20 QPS と 50 QPS で Qwen3-32B モデルサービスの推論応答パフォーマンスをテストします。 ストレステストは 1 分間続きます。
QPS が 20 に設定され、1 分以内に 1,200 件のリクエストが送信されるテスト

QPS が 50 に設定され、1 分以内に 3,000 件のリクエストが送信されるテスト

ストレステストプロセスの詳細については、「ストレステストプロセスの説明」をご参照ください。