All Products
Search
Document Center

Container Compute Service:inference-nv-pytorch 26.01

Last Updated:Jan 30, 2026

Topik ini menjelaskan catatan rilis untuk versi inference-nv-pytorch 26.01.

Daftar Fitur Utama dan Perbaikan Bug

Fitur Utama

  • Menyediakan gambar untuk dua versi CUDA: CUDA 12.8 dan CUDA 13.0, yaitu:

    • Gambar CUDA 12.8 hanya mendukung arsitektur amd64.

    • Gambar CUDA 13.0 mendukung arsitektur amd64 dan aarch64.

  • Pada gambar CUDA 12.8, deepgpu-comfyui ditingkatkan ke 1.4.1, dan komponen optimasi deepgpu-torch ditingkatkan ke 0.1.18+torch2.9.0cu128.

  • Kedua gambar CUDA 12.8 dan CUDA 13.0 telah ditingkatkan dengan vLLM versi v0.14.0 dan SGLang versi v0.5.7.

Perbaikan Bug

Tidak ada

Isi

Nama gambar

inference-nv-pytorch

Tag

26.01-vllm0.14.0-pytorch2.9-cu128-20260121-serverless

26.01-sglang0.5.7-pytorch2.9-cu128-20260113-serverless

26.01-vllm0.14.0-pytorch2.9-cu130-20260123-serverless

26.01-sglang0.5.7-pytorch2.9-cu130-20260113-serverless

Arsitektur yang didukung

amd64

amd64

amd64

aarch64

amd64

aarch64

Skenario

Large model inference

Large model inference

Large model inference

Large model inference

Large model inference

Large model inference

Framework

pytorch

pytorch

pytorch

pytorch

pytorch

pytorch

Persyaratan

NVIDIA Driver release >= 570

NVIDIA Driver release >= 570

NVIDIA Driver release >= 580

NVIDIA Driver release >= 580

NVIDIA Driver release >= 580

NVIDIA Driver release >= 580

Komponen sistem

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.1

  • CUDA 12.8

  • diffusers 0.36.0

  • deepgpu-comfyui 1.4.1

  • deepgpu-torch 0.1.18+torch2.9.0cu128

  • flash_attn 2.8.3

  • flashinfer-python 0.5.3

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.53.0

  • transformers 4.57.6

  • triton 3.5.1

  • torchaudio 2.9.1

  • torchvision 0.24.1

  • vllm 0.14.0

  • xfuser 0.4.5

  • xgrammar 0.1.27

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.1+cu128

  • CUDA 12.8

  • torchaudio 2.9.1+128

  • torchvision 0.24.1+128

  • diffusers 0.36.0

  • decord 0.6.0

  • decord2 3.0.0

  • deepgpu-comfyui 1.4.1

  • deepgpu-torch 0.1.18+torch2.9.0cu128

  • flash_attn 2.8.3

  • flash_mla 1.0.0+1408756

  • flashinfer-python 0.5.3

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.53.0

  • transformers 4.57.1

  • sgl-kernel 0.3.20

  • sglang 0.5.7

  • xgrammar 0.1.27

  • triton 3.5.1

  • torchao 0.9.0

  • xfuser 0.4.5

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.1+cu130

  • CUDA 13.0.2

  • diffusers 0.36.0

  • flash_attn 2.8.3

  • flashinfer-python 0.5.3

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.53.1

  • transformers 4.57.6

  • triton 3.5.0

  • torchaudio 2.9.1+cu130

  • torchvision 0.24.1+cu130

  • vllm 0.14.0

  • xfuser 0.4.5

  • xgrammar 0.1.27

  • ljperf 0.1.0+d0e4a408

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.1+cu130

  • CUDA 13.0.2

  • diffusers 0.36.0

  • flash_attn 2.8.3

  • flashinfer-python 0.5.3

  • transformers 4.57.6

  • ray 2.53.0

  • vllm 0.14.0

  • triton 3.5.1

  • torchaudio 2.9.1+cu130

  • torchvision 2.9.1+cu130

  • xfuser 0.4.5

  • xgrammar 0.1.27

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.1+cu130

  • CUDA 13.0.2

  • diffusers 0.36.0

  • decord 0.6.0

  • decord2 3.0.0

  • flash_attn 2.8.3

  • flashinfer-python 0.5.3

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • ray 2.53.0

  • transformers 4.57.1

  • sgl-kernel 0.3.20

  • sglang 0.5.7

  • xgrammar 0.1.27

  • triton 3.5.1

  • torchao 0.9.0

  • torchaudio 2.9.1

  • torchvision 0.24.1+cu130

  • xfuser 0.4.5

  • ljperf 0.1.0+d0e4a408

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.9.1+cu130

  • CUDA 13.0.2

  • diffusers 0.36.0

  • decord2 3.0.0

  • flash_attn 2.8.3

  • flashinfer-python 0.5.3

  • imageio 2.37.2

  • imageio-ffmpeg 0.6.0

  • transformers 4.57.1

  • sgl-kernel 0.3.20

  • sglang 0.5.7

  • xgrammar 0.1.27

  • triton 3.5.1

  • torchao 0.9.0

  • torchaudio 2.9.1

  • torchvision 0.24.1

  • xfuser 0.4.5

Aset

Gambar jaringan publik

Aset CUDA 12.8

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:26.01-vllm0.14.0-pytorch2.9-cu128-20260121-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:26.01-sglang0.5.7-pytorch2.9-cu128-20260113-serverless

Aset CUDA 13.0

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:26.01-vllm0.14.0-pytorch2.9-cu130-20260123-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:26.01-sglang0.5.7-pytorch2.9-cu130-20260113-serverless

Gambar VPC

Catatan

Gambar-gambar ini cocok untuk bentuk produk multi-tenant ACS dan Lingjun, tetapi tidak cocok untuk bentuk produk single-tenant Lingjun. Jangan gunakan gambar ini dalam skenario single-tenant Lingjun.

Persyaratan Driver

  • CUDA 12.8: NVIDIA Driver release >= 570

  • CUDA 13.0: NVIDIA Driver release >= 580

Memulai Cepat

Contoh berikut menunjukkan cara menarik (pull) gambar inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.

Catatan

Untuk menggunakan gambar inference-nv-pytorch di ACS, pilih gambar tersebut dari halaman Artifact Center pada antarmuka Workloads di Konsol atau tentukan referensi gambar dalam file YAML. Untuk informasi lebih lanjut, lihat seri tentang membangun layanan inferensi model menggunakan daya komputasi GPU ACS:

  1. Tarik gambar kontainer inferensi.

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  2. Unduh model open source menggunakan ModelScope.

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. Jalankan perintah berikut untuk masuk ke dalam kontainer.

    docker run -d -t --network=host --privileged --init --ipc=host \
    --ulimit memlock=-1 --ulimit stack=67108864  \
    -v /mnt/:/mnt/ \
    egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  4. Jalankan pengujian inferensi untuk memverifikasi fungsionalitas chat inferensi vLLM.

    1. Jalankan layanan sisi server.

      python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
    2. Uji dari sisi client.

      curl http://localhost:8000/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
          "model": "/mnt/Qwen2.5-7B-Instruct",  
          "messages": [
          {"role": "system", "content": "You are a friendly AI assistant."},
          {"role": "user", "content": "Introduce deep learning."}
          ]}'

      Untuk informasi lebih lanjut tentang penggunaan vLLM, lihat vLLM.

Isu yang Diketahui

  • Plugin deepgpu-comfyui mempercepat pembuatan video model Wanx, tetapi saat ini hanya mendukung tipe GPU GN8IS, G49E, dan G59.