すべてのプロダクト
Search
ドキュメントセンター

Container Compute Service:inference-nv-pytorch 25.07

最終更新日:Mar 27, 2026

このリリースでは、vLLM、SGLang、deepgpu-comfyui がアップグレードされ、DeepSeek-R1 デプロイメントにおけるマルチノード推論のバグが修正されました。

新機能

フレームワークのアップグレード

フレームワークバージョン
vLLMv0.9.2
SGLangv0.4.9.post1
deepgpu-comfyuiv1.1.7

バグ修正

vLLM 0.9.2 では、マルチノード (デュアルマシン) 構成で DeepSeek-R1 モデルを実行する際に PPMissingLayer エラーが発生していました。このリリースでは、upstream PR #20665 の修正が事前に適用されているため、手動でパッチを適用することなく、マルチノードクラスターでの分散推論が機能します。

イメージの仕様

このリリースでは、PyTorch と CUDA 12.8 を使用した大規模言語モデル (LLM) の推論をターゲットとする 2 つのイメージバリアントが提供されます。

vLLM イメージSGLang イメージ
イメージタグ25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless25.07-sglang0.4.9-pytorch2.7-cu128-20250710-serverless
ユースケースLLM 推論LLM 推論
フレームワークPyTorchPyTorch
ドライバー要件NVIDIA ドライバー ≥570NVIDIA ドライバー ≥570

システムコンポーネント — vLLM イメージ

コンポーネントバージョン
Ubuntu24.04
Python3.12
Torch2.7.1+cu128
CUDA12.8
NCCL2.27.5
accelerate1.8.1
diffusers0.34.0
deepgpu-comfyui1.1.7
deepgpu-torch0.0.24+torch2.7.0cu128
flash_attn2.8.1
imageio2.37.0
imageio-ffmpeg0.6.0
ray2.47.1
transformers4.53.1
vllm0.9.3.dev0+ga5dd03c1e.d20250709
xgrammar0.1.19
triton3.3.1

システムコンポーネント — SGLang イメージ

コンポーネントバージョン
Ubuntu24.04
Python3.12
Torch2.7.1+cu128
CUDA12.8
NCCL2.27.5
accelerate1.8.1
diffusers0.34.0
deepgpu-comfyui1.1.7
deepgpu-torch0.0.24+torch2.7.0cu128
flash_attn2.8.1
flash_mla1.0.0+9edee0c
flashinfer-python0.2.7.post1
imageio2.37.0
imageio-ffmpeg0.6.0
transformers4.53.0
sgl-kernel0.2.4
sglang0.4.9.post1
xgrammar0.1.20
triton3.3.1
torchao0.9.0

イメージへのアクセス

パブリックイメージ

パブリックレジストリからいずれかのイメージを直接プルします。

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-sglang0.4.9-pytorch2.7-cu128-20250710-serverless

VPC イメージ

Virtual Private Cloud (VPC) 内でより低レイテンシーでプルするには、以下を使用します。

acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}

{region-id} を、お客様の Alibaba Cloud Container Compute Service (ACS) がアクティベートされている リージョン (たとえば、cn-beijing または cn-wulanchabu) に置き換え、{image:tag} をイメージ名とタグに置き換えます。

重要

VPC イメージのプルは、現在、中国 (北京) リージョンでのみサポートされています。

説明

両方のイメージは、ACS クラスターおよび Lingjun マルチテナントクラスターと互換性があります。Lingjun シングルテナントクラスターではサポートされていません。

ドライバー要件

CUDA 12.8 イメージには、NVIDIA ドライバー 570 以降が必要です。

クイックスタート

この例では、vLLM イメージをプルし、Qwen2.5-7B-Instruct モデルをダウンロードして、推論テストを実行します。

説明

ACS デプロイメントの場合、コンソールの Artifact Center からイメージを選択するか、YAML 構成で指定します。エンドツーエンドのデプロイメント手順については、以下のガイドをご参照ください。

  1. イメージをプルします。

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  2. ModelScope からモデルをダウンロードします。

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. コンテナを起動します。

    docker run -d -t --network=host --privileged --init --ipc=host \
      --ulimit memlock=-1 --ulimit stack=67108864 \
      -v /mnt/:/mnt/ \
      egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  4. vLLM 推論サーバーを起動します。

    python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
  5. クライアントからテストリクエストを送信します。

    curl http://localhost:8000/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "/mnt/Qwen2.5-7B-Instruct",
        "messages": [
          {"role": "system", "content": "You are a friendly AI assistant."},
          {"role": "user", "content": "Please introduce deep learning."}
        ]
      }'

    詳細については、vLLM ドキュメントをご参照ください。

既知の問題

Wanx モデルの動画生成用の deepgpu-comfyui プラグインは、gn8is インスタンスタイプのみをサポートします。