Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.09.
Fitur utama dan perbaikan bug
Fitur utama
PyTorch ditingkatkan ke 2.8.0.
vLLM ditingkatkan ke v0.10.2.
SGLang ditingkatkan ke v0.5.2.
deepgpu-comfyui ditingkatkan ke 1.2.1, dan komponen optimasi deepgpu-torch ditingkatkan ke 0.1.1+torch2.8.0cu128.
Perbaikan bug
Tidak ada.
Konten
inferensi-nv-pytorch | inferensi-nv-pytorch | |
Tag | 25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless | 25.09-sglang0.5.2-pytorch2.8-cu128-20250917-serverless |
Skenario | Inferensi model besar | Inferensi model besar |
Kerangka kerja | pytorch | pytorch |
Persyaratan | Rilis NVIDIA Driver >= 570 | Rilis NVIDIA Driver >= 570 |
Komponen sistem |
|
|
Aset
Gambar publik
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.09-sglang0.5.2-pytorch2.8-cu128-20250917-serverless
Gambar VPC
acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id}menunjukkan wilayah di mana ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.{image:tag}menunjukkan nama dan tag gambar.
Saat ini, Anda hanya dapat menarik gambar di wilayah China (Beijing) melalui VPC.
Gambar inference-nv-pytorch:25.09-vllm0.10.2-pytorch2.8-cu128-20250922-serverless dan inference-nv-pytorch:25.09-sglang0.5.2-pytorch2.8-cu128-20250917-serverless berlaku untuk produk ACS dan produk multi-penyewa Lingjun. Gambar tersebut tidak berlaku untuk produk satu penyewa Lingjun.
Persyaratan driver
Rilis NVIDIA Driver >= 570
Mulai cepat
Contoh ini menunjukkan cara menarik gambar inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.
Untuk menggunakan gambar inference-nv-pytorch di ACS, Anda dapat memilihnya di halaman Artifacts saat membuat beban kerja di konsol, atau menentukan referensi gambar dalam file YAML. Untuk informasi lebih lanjut tentang membangun layanan inferensi model menggunakan daya komputasi GPU ACS, lihat topik-topik berikut:
Tarik gambar kontainer inferensi.
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Unduh model sumber terbuka dalam format ModelScope.
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-InstructJalankan perintah berikut untuk masuk ke kontainer.
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Uji fitur inferensi percakapan vLLM.
Mulai server.
python3 -m vllm.entrypoints.openai.api_server \ --model /mnt/Qwen2.5-7B-Instruct \ --trust-remote-code --disable-custom-all-reduce \ --tensor-parallel-size 1Uji pada klien.
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "You are a friendly AI assistant."}, {"role": "user", "content": "Tell me about deep learning."} ]}'Untuk informasi lebih lanjut tentang cara menggunakan vLLM, lihat vLLM.
Masalah yang diketahui
Plugin deepgpu-comfyui, yang mempercepat pembuatan video model Wanx, saat ini hanya mendukung GN8IS dan G49E.