inferensi-nv-pytorch 25.04 - Container Compute Service

Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.04.

Daftar fitur utama dan perbaikan bug

Fitur utama

vLLM ditingkatkan ke v0.8.5, mendukung model Qwen3.
Versi PyTorch gambar SGLang ditingkatkan ke 2.6.0, versi SGLang ditingkatkan ke v0.4.6.post1, mendukung model Qwen3.

Perbaikan bug

Tidak ada.

Konten

	inferensi-nv-pytorch	inferensi-nv-pytorch
Tag	25.04-vllm0.8.5-pytorch2.6-cu124-20250430-serverless	25.04-sglang0.4.6.post1-pytorch2.6-cu124-20250430-serverless
Skenario	Inferensi LLM	Inferensi LLM
Kerangka	pytorch	pytorch
Persyaratan	NVIDIA Driver release >= 550	NVIDIA Driver release >= 550
Komponen sistem	Ubuntu 22.04 Python 3.10 Torch 2.6.0+cu124 CUDA 12.4 ACCL-N 2.23.4.12 accelerate 1.6.0 diffusers 0.33.1 flash_attn 2.7.4.post1 transformer 4.51.3 vllm 0.8.5 ray 2.43.0 triton 3.2.0 xgrammar 0.1.18	Ubuntu 22.04 Python 3.10 Torch 2.6.0+cu124 CUDA 12.4 ACCL-N 2.23.4.12 transformers 4.51.1 triton 3.2.0 xgrammar 0.1.17 flashinfer-python 0.2.3 sglang 0.4.6.post1 sgl-kernel 0.1.0

Aset

Gambar jaringan publik

egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.04-vllm0.8.5-pytorch2.6-cu124-20250430-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.04-sglang0.4.6.post1-pytorch2.6-cu124-20250430-serverless

Gambar VPC

acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id} menunjukkan wilayah di mana ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.
{image:tag} menunjukkan nama dan tag dari gambar tersebut.

Penting

Saat ini, Anda hanya dapat menarik gambar di wilayah China (Beijing) melalui VPC.

Catatan

Gambar 25.04-vllm0.8.5-pytorch2.6-cu124-20250430-serverless dan 25.04-sglang0.4.6.post1-pytorch2.6-cu124-20250430-serverless berlaku untuk bentuk produk ACS dan bentuk produk multi-penyewa Lingjun, tetapi tidak berlaku untuk bentuk produk satu penyewa Lingjun.

Persyaratan driver

Rilis Driver NVIDIA >= 550

Memulai Cepat

Contoh berikut menggunakan Docker untuk menarik gambar inferensi-nv-pytorch dan menggunakan model Qwen2.5-7B-Instruct untuk menguji layanan inferensi.

Catatan

Untuk menggunakan gambar inferensi-nv-pytorch di ACS, Anda harus memilih gambar dari halaman pusat artefak konsol tempat Anda membuat beban kerja, atau menentukan gambar dalam file YAML. Untuk informasi lebih lanjut, lihat topik-topik berikut:

Tarik gambar kontainer inferensi.

docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]

Unduh model sumber terbuka dalam format modelscope.

pip install modelscope
cd /mnt
modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct

Jalankan perintah berikut untuk masuk ke kontainer.

docker run -d -t --network=host --privileged --init --ipc=host \
--ulimit memlock=-1 --ulimit stack=67108864  \
-v /mnt/:/mnt/ \
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]

Jalankan tes inferensi untuk menguji fitur percakapan inferensi vLLM.

Mulai layanan Server.

python3 -m vllm.entrypoints.openai.api_server \
--model /mnt/Qwen2.5-7B-Instruct \
--trust-remote-code --disable-custom-all-reduce \
--tensor-parallel-size 1

Uji pada klien.

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "/mnt/Qwen2.5-7B-Instruct",  
    "messages": [
    {"role": "system", "content": "You are a friendly AI assistant."},
    {"role": "user", "content": "Please introduce deep learning."}
    ]}'

Untuk informasi lebih lanjut tentang cara bekerja dengan vLLM, lihat vLLM.

Masalah yang diketahui

Tidak ada.