All Products
Search
Document Center

Container Compute Service:inference-nv-pytorch 25.07

Last Updated:Mar 27, 2026

Rilis ini mencakup peningkatan pada vLLM, SGLang, dan deepgpu-comfyui, serta memperbaiki bug inferensi multi-node dalam penerapan model DeepSeek-R1.

Fitur baru

Peningkatan framework

FrameworkVersi
vLLMv0.9.2
SGLangv0.4.9.post1
deepgpu-comfyuiv1.1.7

Perbaikan bug

vLLM 0.9.2 mengalami error PPMissingLayer saat menjalankan model DeepSeek-R1 dalam konfigurasi multi-node (dua mesin). Rilis ini telah menerapkan perbaikan dari PR upstream #20665, sehingga inferensi terdistribusi pada kluster multi-node dapat berjalan tanpa memerlukan patch manual.

Spesifikasi image

Rilis ini menyediakan dua varian image yang keduanya ditujukan untuk inferensi Large Language Model (LLM) pada PyTorch dengan CUDA 12.8.

Image vLLMgambar SGLang
image tag25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless25.07-sglang0.4.9-pytorch2.7-cu128-20250710-serverless
Kasus penggunaanInferensi LLMInferensi LLM
FrameworkPyTorchPyTorch
Persyaratan driverNVIDIA Driver ≥570NVIDIA Driver ≥570

Komponen sistem — image vLLM

KomponenVersi
Ubuntu24.04
Python3.12
Torch2.7.1+cu128
CUDA12.8
NCCL2.27.5
accelerate1.8.1
diffusers0.34.0
deepgpu-comfyui1.1.7
deepgpu-torch0.0.24+torch2.7.0cu128
flash_attn2.8.1
imageio2.37.0
imageio-ffmpeg0.6.0
ray2.47.1
transformers4.53.1
vllm0.9.3.dev0+ga5dd03c1e.d20250709
xgrammar0.1.19
triton3.3.1

Komponen sistem — image SGLang

KomponenVersi
Ubuntu24.04
Python3.12
Torch2.7.1+cu128
CUDA12.8
NCCL2.27.5
accelerate1.8.1
diffusers0.34.0
deepgpu-comfyui1.1.7
deepgpu-torch0.0.24+torch2.7.0cu128
flash_attn2.8.1
flash_mla1.0.0+9edee0c
flashinfer-python0.2.7.post1
imageio2.37.0
imageio-ffmpeg0.6.0
transformers4.53.0
sgl-kernel0.2.4
sglang0.4.9.post1
xgrammar0.1.20
triton3.3.1
torchao0.9.0

Akses image

Image publik

Tarik salah satu image langsung dari registri publik:

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-vllm0.9.2-pytorch2.7-cu128-20250714-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.07-sglang0.4.9-pytorch2.7-cu128-20250710-serverless

Image VPC

Untuk tarikan dengan latensi lebih rendah di dalam Virtual Private Cloud (VPC), gunakan:

acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}

Ganti {region-id} dengan wilayah tempat Alibaba Cloud Container Compute Service (ACS) Anda diaktifkan (misalnya, cn-beijing atau cn-wulanchabu), dan ganti {image:tag} dengan nama dan tag image tersebut.

Penting

Tarikan image VPC saat ini hanya didukung di wilayah China (Beijing).

Catatan

Kedua image kompatibel dengan kluster ACS dan kluster multi-tenant Lingjun. Image ini tidak didukung pada kluster single-tenant Lingjun.

Persyaratan driver

Image CUDA 12.8 memerlukan NVIDIA Driver versi 570 atau lebih baru.

Panduan cepat

Contoh berikut menarik image vLLM, mengunduh model Qwen2.5-7B-Instruct, dan menjalankan uji coba inferensi.

Catatan

Untuk penerapan di ACS, pilih image dari Artifact Center di Konsol atau tentukan dalam konfigurasi YAML Anda. Lihat panduan berikut untuk instruksi penerapan end-to-end:

  1. Tarik image.

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  2. Unduh model dari ModelScope.

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. Jalankan kontainer.

    docker run -d -t --network=host --privileged --init --ipc=host \
      --ulimit memlock=-1 --ulimit stack=67108864 \
      -v /mnt/:/mnt/ \
      egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  4. Jalankan server inferensi vLLM.

    python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
  5. Kirim permintaan uji dari klien.

    curl http://localhost:8000/v1/chat/completions \
      -H "Content-Type: application/json" \
      -d '{
        "model": "/mnt/Qwen2.5-7B-Instruct",
        "messages": [
          {"role": "system", "content": "You are a friendly AI assistant."},
          {"role": "user", "content": "Please introduce deep learning."}
        ]
      }'

    Untuk informasi lebih lanjut, lihat dokumentasi vLLM.

Isu yang diketahui

Plugin deepgpu-comfyui untuk pembuatan video model Wanx hanya mendukung tipe instans gn8is.