全部产品
Search
文档中心

Container Compute Service:inferensi-nv-pytorch 25.09

更新时间:Nov 09, 2025

Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.09.

Fitur utama dan perbaikan bug

Fitur utama

  • PyTorch ditingkatkan ke 2.8.0.

  • vLLM ditingkatkan ke v0.10.2.

  • SGLang ditingkatkan ke v0.5.2.

  • deepgpu-comfyui ditingkatkan ke 1.2.1, dan komponen optimasi deepgpu-torch ditingkatkan ke 0.1.1+torch2.8.0cu128.

Perbaikan bug

Tidak ada.

Konten

inferensi-nv-pytorch

inferensi-nv-pytorch

Tag

25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless

25.09-sglang0.5.2-pytorch2.8-cu128-20250917-serverless

Skenario

Inferensi model besar

Inferensi model besar

Kerangka kerja

pytorch

pytorch

Persyaratan

Rilis NVIDIA Driver >= 570

Rilis NVIDIA Driver >= 570

Komponen sistem

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.8.0

  • CUDA 12.8

  • diffusers 0.35.1

  • deepgpu-comfyui 1.2.1

  • deepgpu-torch 0.1.1+torch2.8.0cu128

  • flash_attn 2.8.3

  • flashinfer-python 0.3.1

  • imageio 2.37.0

  • imageio-ffmpeg 0.6.0

  • ray 2.49.1

  • transformers 4.56.1

  • triton 3.4.0

  • vllm 0.10.2

  • xformers 0.0.32.post1

  • xfuser 0.4.4

  • xgrammar 0.1.23

  • ljperf 0.1.0+477686c5

  • Ubuntu 24.04

  • Python 3.12

  • Torch 2.8.0

  • CUDA 12.8

  • decord 0.6.0

  • diffusers 0.35.1

  • deepgpu-comfyui 1.2.1

  • deepgpu-torch 0.1.1+torch2.8.0cu128

  • flash_attn 2.8.3

  • flash_mla 1.0.0+261330b

  • flashinfer-python 0.3.1

  • imageio 2.37.0

  • imageio-ffmpeg 0.6.0

  • transformers 4.56.1

  • sgl-kernel 0.3.9

  • sglang 0.5.2

  • xgrammar 0.1.24

  • triton 3.4.0

  • torchao 0.9.0

  • torchaudio 2.8.0

  • xfuser 0.4.4

  • ljperf 0.1.0+477686c5

Aset

Gambar publik

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless

  • egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-sglang0.5.2-pytorch2.8-cu128-20250917-serverless

Gambar VPC

  • acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}

    {region-id} menunjukkan wilayah di mana ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.
    {image:tag} menunjukkan nama dan tag gambar.
Penting

Saat ini, Anda hanya dapat menarik gambar di wilayah China (Beijing) melalui VPC.

Catatan

Gambar inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless dan inference-nv-pytorch:25.09-sglang0.5.2-pytorch2.8-cu128-20250917-serverless berlaku untuk produk ACS dan produk multi-penyewa Lingjun. Gambar tersebut tidak berlaku untuk produk satu penyewa Lingjun.

Persyaratan driver

Rilis NVIDIA Driver >= 570

Mulai cepat

Contoh ini menunjukkan cara menarik gambar inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.

Catatan

Untuk menggunakan gambar inference-nv-pytorch di ACS, Anda dapat memilihnya di halaman Artifacts saat membuat beban kerja di konsol, atau menentukan referensi gambar dalam file YAML. Untuk informasi lebih lanjut tentang membangun layanan inferensi model menggunakan daya komputasi GPU ACS, lihat topik-topik berikut:

  1. Tarik gambar kontainer inferensi.

    docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  2. Unduh model sumber terbuka dalam format ModelScope.

    pip install modelscope
    cd /mnt
    modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct
  3. Jalankan perintah berikut untuk masuk ke kontainer.

    docker run -d -t --network=host --privileged --init --ipc=host \
    --ulimit memlock=-1 --ulimit stack=67108864  \
    -v /mnt/:/mnt/ \
    egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]
  4. Uji fitur inferensi percakapan vLLM.

    1. Mulai server.

      python3 -m vllm.entrypoints.openai.api_server \
      --model /mnt/Qwen2.5-7B-Instruct \
      --trust-remote-code --disable-custom-all-reduce \
      --tensor-parallel-size 1
    2. Uji pada klien.

      curl http://localhost:8000/v1/chat/completions \
          -H "Content-Type: application/json" \
          -d '{
          "model": "/mnt/Qwen2.5-7B-Instruct",  
          "messages": [
          {"role": "system", "content": "You are a friendly AI assistant."},
          {"role": "user", "content": "Tell me about deep learning."}
          ]}'

      Untuk informasi lebih lanjut tentang cara menggunakan vLLM, lihat vLLM.

Masalah yang diketahui

  • Plugin deepgpu-comfyui, yang mempercepat pembuatan video model Wanx, saat ini hanya mendukung GN8IS dan G49E.