全部产品
Search
文档中心

Container Compute Service:inference-nv-pytorch 25.11

更新时间:Dec 30, 2025

Dokumen ini menyediakan catatan rilis untuk inference-nv-pytorch versi 25.11.

Fitur utama dan perbaikan bug

Fitur utama

  • Rilis ini mencakup citra untuk dua versi CUDA: CUDA 12.8 dan CUDA 13.0.

    • Citra CUDA 12.8 hanya mendukung arsitektur amd64.

    • Citra CUDA 13.0 mendukung arsitektur amd64 dan aarch64.

  • Versi PyTorch ditingkatkan ke 2.9.0.

  • Untuk citra CUDA 12.8, deepgpu-comfyui ditingkatkan ke 1.3.2, dan komponen optimasi deepgpu-torch ditingkatkan ke 0.1.12+torch2.9.0cu128.

  • Untuk citra CUDA 12.8 dan CUDA 13.0, versi vLLM ditingkatkan ke v0.11.2, dan versi SGLang ditingkatkan ke v0.5.5.post3.

Perbaikan bug

Tidak ada

Konten

Nama citra

inference-nv-pytorch

Tag citra

25.11-vllm0.11.1-pytorch2.9-cu128-20251120-serverless

25.11-sglang0.5.5.post3-pytorch2.9-cu128-20251121-serverless

25.11-vllm0.11.1-pytorch2.9-cu130-20251120-serverless

25.11-sglang0.5.5.post3-pytorch2.9-cu130-20251121-serverless

Arsitektur yang didukung

amd64

amd64

amd64

aarch64

amd64

aarch64

Skenario aplikasi

Inferensi model besar

Inferensi model besar

Inferensi model besar

Inferensi model besar

Inferensi model besar

Inferensi model besar

Framework

pytorch

pytorch

pytorch

pytorch

pytorch

pytorch

Persyaratan

NVIDIA Driver release >= 570

NVIDIA Driver release >= 570

NVIDIA Driver release >= 580

NVIDIA Driver release >= 580

NVIDIA Driver release >= 580

NVIDIA Driver release >= 580

Komponen sistem

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0+cu128

  • CUDA 12.8

  • diffusers 0.35.2

  • deepgpu-comfyui 1.3.2

  • deepgpu-torch 0.1.12+torch2.9.0cu128

  • flash_attn 2.8.3

  • flashinfer-python 0.5.2

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.51.1

  • transformers 4.57.1

  • triton 3.4.0

  • torchaudio 2.8.0+cu128

  • torchvision 0.24.0+cu128

  • vllm 0.11.1

  • xfuser 0.4.5

  • xgrammar 0.1.25

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0+cu128

  • CUDA 12.8

  • diffusers 0.35.2

  • decord 0.6.0

  • decord2 2.0.0

  • deepgpu-comfyui 1.3.2

  • deepgpu-torch 0.1.12+torch2.9.0cu128

  • flash_attn 2.8.3

  • flash_mla 1.0.0+1408756

  • flashinfer-python 0.5.2

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.51.1

  • transformers 4.57.1

  • sgl-kernel 0.3.17.post1

  • sglang 0.5.5.post3

  • xgrammar 0.1.25

  • triton 3.5.0

  • torchao 0.9.0

  • torchaudio 2.8.0+cu128

  • torchvision 0.24.0+cu128

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0+cu130

  • CUDA 13.0.2

  • diffusers 0.35.2

  • flash_attn 2.8.3

  • flashinfer-python 0.5.2

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.51.1

  • transformers 4.57.1

  • triton 3.5.0

  • torchaudio 2.9.0+cu130

  • torchvision 0.24.0+cu130

  • vllm 0.11.2

  • xfuser 0.4.5

  • xgrammar 0.1.25

  • ljperf 0.1.0+d0e4a408

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0+cu130

  • CUDA 13.0.2

  • diffusers 0.35.2

  • flash_attn 2.8.3

  • flashinfer-python 0.5.2

  • transformers 4.57.1

  • ray 2.51.1

  • vllm 0.11.1

  • triton 3.5.0

  • torchaudio 2.9.0

  • torchvision 0.24.0

  • xfuser 0.4.5

  • xgrammar 0.1.25

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0+cu130

  • CUDA 13.0.2

  • diffusers 0.35.2

  • decord 0.6.0

  • decord2 2.0.0

  • flash_attn 2.8.3

  • flashinfer-python 0.5.2

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.51.1

  • transformers 4.57.1

  • sgl-kernel 0.3.17.post1

  • sglang 0.5.5.post3

  • xgrammar 0.1.25

  • triton 3.5.0

  • torchao 0.9.0

  • torchaudio 2.9.0

  • torchvision 0.24.0

  • xfuser 0.4.5

  • ljperf 0.1.0+d0e4a408

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.0+cu130

  • CUDA 13.0.2

  • diffusers 0.35.2

  • decord2 2.0.0

  • flashinfer-python 0.5.2

  • imageio 2.37.2

  • flash_attn 2.8.3

  • imageio-ffmpeg 0.6.0

  • transformers 4.57.1

  • sgl-kernel 0.3.17.post1

  • sglang 0.5.5.post3

  • xgrammar 0.1.25

  • triton 3.5.0

  • torchao 0.9.0

  • torchaudio 2.9.0

  • torchvision 0.24.0

  • xfuser 0.4.5

Aset

Citra jaringan publik

Aset CUDA 12.8

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-vllm0.11.1-pytorch2.9-cu128-20251120-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-sglang0.5.5.post3-pytorch2.9-cu128-20251121-serverless

Aset CUDA 13.0

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-vllm0.11.1-pytorch2.9-cu130-20251120-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-sglang0.5.5.post3-pytorch2.9-cu130-20251121-serverless

Citra VPC

Untuk mempercepat pengambilan citra kontainer AI ACS dari dalam VPC, ganti URI aset egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/{image:tag} dengan acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}.

  • {region-id}: ID wilayah wilayah yang tersedia tempat Produk ACS Anda berada. Contohnya, cn-beijing dan cn-wulanchabu.

  • {image:tag}: Nama dan tag citra kontainer AI. Contohnya, inference-nv-pytorch:25.10-vllm0.11.0-pytorch2.8-cu128-20251028-serverless dan training-nv-pytorch:25.10-serverless.

Catatan

Citra-citra ini dirancang untuk produk ACS dan produk multi-tenant Lingjun. Citra ini tidak didukung untuk produk single-tenant Lingjun. Jangan gunakan citra ini dalam skenario single-tenant.

Persyaratan driver

  • CUDA 12.8: Versi NVIDIA Driver 570 atau lebih baru

  • CUDA 13.0: Versi NVIDIA Driver 580 atau lebih baru

Mulai cepat

Contoh berikut menunjukkan cara menarik citra inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.

Catatan

Untuk menggunakan citra inference-nv-pytorch di ACS, pilih citra tersebut pada halaman Artifacts saat membuat workload di Konsol, atau tentukan referensi citra dalam file YAML. Untuk informasi selengkapnya, lihat topik-topik berikut tentang cara membangun layanan inferensi model menggunakan daya komputasi GPU ACS:

  1. Tarik citra kontainer inferensi.

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  2. Unduh model open source dari ModelScope.

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. Jalankan perintah berikut untuk masuk ke kontainer.

    docker run -d -t --network=host --privileged --init --ipc=host \
    --ulimit memlock=-1 --ulimit stack=67108864  \
    -v /mnt/:/mnt/ \
    egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  4. Uji fitur inferensi percakapan vLLM.

    1. Jalankan layanan sisi server.

      python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
    2. Jalankan pengujian pada client.

      curl http://localhost:8000/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
          "model": "/mnt/Qwen2.5-7B-Instruct",  
          "messages": [
          {"role": "system", "content": "You are a friendly AI assistant."},
          {"role": "user", "content": "Introduce deep learning."}
          ]}'

      Untuk informasi selengkapnya tentang cara menggunakan vLLM, lihat vLLM.

Isu yang diketahui

  • Plugin deepgpu-comfyui untuk mempercepat pembuatan video model Wanx saat ini hanya mendukung tipe instans GN8IS, G49E, dan G59.