inferensi-nv-pytorch 25.05 - Container Compute Service

Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.05.

Fitur utama dan perbaikan bug

Fitur utama

Sistem operasi gambar vLLM telah ditingkatkan ke Ubuntu 24.04, versi Python diperbarui ke 3.12, versi CUDA ditingkatkan ke 12.8, dan versi vLLM diperbarui ke v0.8.5.post1.
Versi SGLang dalam gambar SGLang ditingkatkan ke v0.4.6.post4.

Perbaikan bug

Tidak ada.

Konten

	inferensi-nv-pytorch	inferensi-nv-pytorch
Tag	25.05-vllm0.8.5.post1-pytorch2.7-cu128-20250513-serverless	25.05-sglang0.4.6.post4-pytorch2.6-cu124-20250513-serverless
Skenario	Inferensi LLM	Inferensi LLM
Kerangka kerja	PyTorch	PyTorch
Persyaratan	Rilis driver NVIDIA >= 570	Rilis driver NVIDIA >= 550
Komponen sistem	Ubuntu 24.04 Python 3.12 Torch 2.7.0+cu128 CUDA 12.8 NCCL 2.26.5 transformer 4.51.3 vllm 0.8.5.post2.dev0+g3015d5634.d20250513.cu128 ray 2.46.0 triton 3.3.0 xgrammar 0.1.18	Ubuntu 22.04 Python 3.10 Torch 2.6.0+cu124 CUDA 12.4 NCCL 2.26.5 accelerate 1.6.0 transformers 4.51.1 triton 3.2.0 xgrammar 0.1.19 flashinfer-python 0.2.5 sglang 0.4.6.post4 sgl-kernel 0.1.2.post1

Aset

Gambar jaringan publik

egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:25.05-vllm0.8.5.post1-pytorch2.7-cu128-20250513-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:25.05-sglang0.4.6.post4-pytorch2.6-cu124-20250513-serverless

Gambar VPC

acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id} menunjukkan wilayah di mana ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.
{image:tag} menunjukkan nama dan tag dari gambar.

Penting

Saat ini, Anda hanya dapat menarik gambar di wilayah China (Beijing) melalui VPC.

Catatan

Gambar 25.05-vllm0.8.5.post1-pytorch2.7-cu128-20250513-serverless dan 25.05-sglang0.4.6.post4-pytorch2.6-cu124-20250513-serverless berlaku untuk layanan ACS dan layanan multi-tenant Lingjun, tetapi tidak berlaku untuk layanan single-tenant Lingjun.

Persyaratan driver

Untuk gambar CUDA 12.8: Rilis driver NVIDIA >= 570.

Untuk gambar CUDA 12.4: Rilis driver NVIDIA >= 550.

Memulai Cepat

Contoh berikut menggunakan Docker untuk menarik gambar inferensi-nv-pytorch dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.

Catatan

Untuk menggunakan gambar inferensi-nv-pytorch di ACS, Anda harus memilih gambar dari halaman pusat artefak konsol tempat Anda membuat beban kerja atau menentukan gambar dalam file YAML. Untuk informasi lebih lanjut, lihat topik berikut:

Tarik gambar kontainer inferensi.

docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:[tag]

Unduh model sumber terbuka dalam format modelscope.

pip install modelscope
cd /mnt
modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct

Jalankan perintah berikut untuk masuk ke kontainer.

docker run -d -t --network=host --privileged --init --ipc=host \
--ulimit memlock=-1 --ulimit stack=67108864  \
-v /mnt/:/mnt/ \
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:[tag]

Jalankan tes inferensi untuk menguji fitur percakapan inferensi vLLM.

Mulai layanan Server.

python3 -m vllm.entrypoints.openai.api_server \
--model /mnt/Qwen2.5-7B-Instruct \
--trust-remote-code --disable-custom-all-reduce \
--tensor-parallel-size 1

Uji pada klien.

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "/mnt/Qwen2.5-7B-Instruct",  
    "messages": [
    {"role": "system", "content": "You are a friendly AI assistant."},
    {"role": "user", "content": "Please introduce deep learning."}
    ]}'

Untuk informasi lebih lanjut tentang cara bekerja dengan vLLM, lihat vLLM.

Masalah yang diketahui

Tidak ada.