全部产品
Search
文档中心

Container Compute Service:inferensi-nv-pytorch 25.08

更新时间:Nov 09, 2025

Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.08.

Daftar fitur utama dan perbaikan bug

Fitur utama

  • Peningkatan vLLM ke v0.10.0.

  • Peningkatan SGLang ke v0.4.10.post2.

Perbaikan bug

(Tidak ada)

Isi

inferensi-nv-pytorch

inferensi-nv-pytorch

Tag

25.08-vllm0.10.0-pytorch2.7-cu128-20250811-serverless

25.08-sglang0.4.10.post2-pytorch2.7-cu128-20250808-serverless

Skenario aplikasi

Inferensi model besar

Inferensi model besar

Kerangka kerja

PyTorch

PyTorch

Persyaratan

NVIDIA Driver release >= 570

NVIDIA Driver release >= 570

Komponen sistem

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.7.1+cu128

  • CUDA 12.8

  • NCCL 2.27.5

  • diffusers 0.34.0

  • deepgpu-comfyui 1.1.7

  • deepgpu-torch 0.0.24+torch2.7.0cu128

  • flash_attn 2.8.2

  • imageio 2.37.0

  • imageio-ffmpeg 0.6.0

  • diffusers 0.34.0

  • ray 2.48.0

  • transformers 4.55.0

  • triton 3.3.1

  • vllm 0.10.0

  • xformers 0.0.31

  • xfuser 0.4.4

  • xgrammar 0.1.21

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.7.1+cu128

  • CUDA 12.8

  • NCCL 2.27.5

  • diffusers 0.34.0

  • deepgpu-comfyui 1.1.7

  • deepgpu-torch 0.0.24+torch2.7.0cu128

  • flash_attn 2.8.2

  • flash_mla 1.0.0+41b611f

  • flashinfer-python 0.2.9rc2

  • imageio 2.37.0

  • imageio-ffmpeg 0.6.0

  • diffusers 0.34.0

  • transformers 4.54.1

  • sgl-kernel 0.2.8

  • sglang 0.4.10.post2

  • xgrammar 0.1.22

  • triton 3.3.1

  • torchao 0.9.0

Aset

Gambar Internet

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.08-vllm0.10.0-pytorch2.7-cu128-20250811-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.08-sglang0.4.10.post2-pytorch2.7-cu128-20250808-serverless

Gambar VPC

  • acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}

    {region-id} menunjukkan wilayah tempat ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.
    {image:tag} menunjukkan nama dan tag dari gambar tersebut.
Penting

Saat ini, Anda hanya dapat menarik gambar di wilayah Tiongkok (Beijing) melalui VPC.

Catatan

Gambar inference-nv-pytorch:25.08-vllm0.10.0-pytorch2.7-cu128-20250811-serverless dan inference-nv-pytorch:25.08-sglang0.4.10.post2-pytorch2.7-cu128-20250808-serverless berlaku untuk produk ACS dan produk multi-penyewa Lingjun, tetapi tidak untuk produk satu penyewa Lingjun.

Persyaratan driver

NVIDIA Driver release >= 570

Memulai cepat

Contoh berikut menunjukkan cara menarik gambar inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.

Catatan

Untuk menggunakan gambar inference-nv-pytorch di ACS, Anda dapat memilih gambar pada halaman Artifacts saat membuat beban kerja di Konsol, atau menentukan referensi gambar dalam File YAML. Untuk informasi lebih lanjut, lihat topik berikut tentang membangun layanan inferensi model menggunakan daya komputasi GPU ACS:

  1. Tarik gambar kontainer inferensi.

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  2. Unduh model open-source dalam format ModelScope.

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. Jalankan perintah berikut untuk memulai dan masuk ke kontainer.

    docker run -d -t --network=host --privileged --init --ipc=host \
    --ulimit memlock=-1 --ulimit stack=67108864  \
    -v /mnt/:/mnt/ \
    egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  4. Uji fitur inferensi dan percakapan vLLM.

    1. Mulai layanan.

      python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
    2. Jalankan tes dari klien.

      curl http://localhost:8000/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
          "model": "/mnt/Qwen2.5-7B-Instruct",  
          "messages": [
          {"role": "system", "content": "You are a friendly AI assistant."},
          {"role": "user", "content": "Tell me about deep learning."}
          ]}'

      Untuk informasi lebih lanjut tentang cara menggunakan vLLM, lihat vLLM.

Masalah yang diketahui

  • Plug-in deepgpu-comfyui, yang mempercepat pembuatan video untuk model Wanx, saat ini hanya mendukung GN8IS dan G49E.