inference-nv-pytorch 25.07 - Container Compute Service - Alibaba Cloud ドキュメントセンター

このリリースでは、vLLM、SGLang、deepgpu-comfyui がアップグレードされ、DeepSeek-R1 デプロイメントにおけるマルチノード推論のバグが修正されました。

新機能

フレームワークのアップグレード

フレームワーク	バージョン
vLLM	v0.9.2
SGLang	v0.4.9.post1
deepgpu-comfyui	v1.1.7

バグ修正

vLLM 0.9.2 では、マルチノード (デュアルマシン) 構成で DeepSeek-R1 モデルを実行する際に PPMissingLayer エラーが発生していました。このリリースでは、upstream PR #20665 の修正が事前に適用されているため、手動でパッチを適用することなく、マルチノードクラスターでの分散推論が機能します。

イメージの仕様

このリリースでは、PyTorch と CUDA 12.8 を使用した大規模言語モデル (LLM) の推論をターゲットとする 2 つのイメージバリアントが提供されます。

	vLLM イメージ	SGLang イメージ
イメージタグ	`25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless`	`25.07-sglang0.4.9-pytorch2.7-cu128-20250710-serverless`
ユースケース	LLM 推論	LLM 推論
フレームワーク	PyTorch	PyTorch
ドライバー要件	NVIDIA ドライバー ≥570	NVIDIA ドライバー ≥570

システムコンポーネント — vLLM イメージ

コンポーネント	バージョン
Ubuntu	24.04
Python	3.12
Torch	2.7.1+cu128
CUDA	12.8
NCCL	2.27.5
accelerate	1.8.1
diffusers	0.34.0
deepgpu-comfyui	1.1.7
deepgpu-torch	0.0.24+torch2.7.0cu128
flash_attn	2.8.1
imageio	2.37.0
imageio-ffmpeg	0.6.0
ray	2.47.1
transformers	4.53.1
vllm	0.9.3.dev0+ga5dd03c1e.d20250709
xgrammar	0.1.19
triton	3.3.1

システムコンポーネント — SGLang イメージ

コンポーネント	バージョン
Ubuntu	24.04
Python	3.12
Torch	2.7.1+cu128
CUDA	12.8
NCCL	2.27.5
accelerate	1.8.1
diffusers	0.34.0
deepgpu-comfyui	1.1.7
deepgpu-torch	0.0.24+torch2.7.0cu128
flash_attn	2.8.1
flash_mla	1.0.0+9edee0c
flashinfer-python	0.2.7.post1
imageio	2.37.0
imageio-ffmpeg	0.6.0
transformers	4.53.0
sgl-kernel	0.2.4
sglang	0.4.9.post1
xgrammar	0.1.20
triton	3.3.1
torchao	0.9.0

イメージへのアクセス

パブリックイメージ

パブリックレジストリからいずれかのイメージを直接プルします。

egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-sglang0.4.9-pytorch2.7-cu128-20250710-serverless

VPC イメージ

Virtual Private Cloud (VPC) 内でより低レイテンシーでプルするには、以下を使用します。

acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}

{region-id} を、お客様の Alibaba Cloud Container Compute Service (ACS) がアクティベートされているリージョン (たとえば、cn-beijing または cn-wulanchabu) に置き換え、{image:tag} をイメージ名とタグに置き換えます。

重要

VPC イメージのプルは、現在、中国 (北京) リージョンでのみサポートされています。

説明

両方のイメージは、ACS クラスターおよび Lingjun マルチテナントクラスターと互換性があります。Lingjun シングルテナントクラスターではサポートされていません。

ドライバー要件

CUDA 12.8 イメージには、NVIDIA ドライバー 570 以降が必要です。

クイックスタート

この例では、vLLM イメージをプルし、Qwen2.5-7B-Instruct モデルをダウンロードして、推論テストを実行します。

説明

ACS デプロイメントの場合、コンソールの Artifact Center からイメージを選択するか、YAML 構成で指定します。エンドツーエンドのデプロイメント手順については、以下のガイドをご参照ください。

イメージをプルします。

docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]

ModelScope からモデルをダウンロードします。

pip install modelscope
cd /mnt
modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct

コンテナを起動します。

docker run -d -t --network=host --privileged --init --ipc=host \
  --ulimit memlock=-1 --ulimit stack=67108864 \
  -v /mnt/:/mnt/ \
  egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]

vLLM 推論サーバーを起動します。

python3 -m vllm.entrypoints.openai.api_server \
  --model /mnt/Qwen2.5-7B-Instruct \
  --trust-remote-code --disable-custom-all-reduce \
  --tensor-parallel-size 1

クライアントからテストリクエストを送信します。

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "/mnt/Qwen2.5-7B-Instruct",
    "messages": [
      {"role": "system", "content": "You are a friendly AI assistant."},
      {"role": "user", "content": "Please introduce deep learning."}
    ]
  }'

詳細については、vLLM ドキュメントをご参照ください。

既知の問題

Wanx モデルの動画生成用の deepgpu-comfyui プラグインは、gn8is インスタンスタイプのみをサポートします。