Topik ini menjelaskan catatan rilis untuk inference-nv-pytorch versi 25.10.
Fitur utama dan perbaikan bug
Fitur utama
Menyediakan citra untuk dua versi CUDA: CUDA 12.8 dan CUDA 13.0.
Citra CUDA 12.8 hanya mendukung arsitektur amd64.
Citra CUDA 13.0 mendukung arsitektur amd64 dan aarch64.
Untuk citra CUDA 12.8, deepgpu-comfyui ditingkatkan ke 1.3.0, dan komponen optimasi deepgpu-torch ditingkatkan ke 0.1.6+torch2.8.0cu128.
Untuk citra CUDA 13.0, versi PyTorch ditingkatkan ke 2.9.0.
Untuk kedua citra CUDA 12.8 dan CUDA 13.0, versi vLLM ditingkatkan ke v0.11.0, dan versi SGLang ditingkatkan ke v0.5.4.
Perbaikan bug
Tidak ada
Isi
inference-nv-pytorch | ||||||
Tag | 25.10-vllm0.11.0-pytorch2.8-cu128-20251028-serverless | 25.10-sglang0.5.4-pytorch2.8-cu128-20251027-serverless | 25.10-vllm0.11.0-pytorch2.9-cu130-20251028-serverless | 25.10-sglang0.5.4-pytorch2.9-cu130-20251028-serverless | ||
Arsitektur yang didukung | amd64 | amd64 | amd64 | aarch64 | amd64 | aarch64 |
Skenario | Inferensi model besar | Inferensi model besar | Inferensi model besar | Inferensi model besar | Inferensi model besar | Inferensi model besar |
Framework | pytorch | pytorch | pytorch | pytorch | pytorch | pytorch |
Persyaratan | NVIDIA Driver release >= 570 | NVIDIA Driver release >= 570 | NVIDIA Driver release >= 580 | NVIDIA Driver release >= 580 | NVIDIA Driver release >= 580 | NVIDIA Driver release >= 580 |
Komponen sistem |
|
|
|
|
|
|
Aset
Citra jaringan publik
Aset CUDA 12.8
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.10-vllm0.11.0-pytorch2.8-cu128-20251028-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.10-sglang0.5.4-pytorch2.8-cu128-20251027-serverless
Aset CUDA 13.0
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.10-vllm0.11.0-pytorch2.9-cu130-20251028-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.10-sglang0.5.4-pytorch2.9-cu130-20251028-serverless
Citra VPC
acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id}menunjukkan wilayah tempat ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.{image:tag}menunjukkan nama dan tag citra tersebut.
Saat ini, Anda hanya dapat menarik citra dari wilayah China (Beijing) melalui VPC.
Persyaratan driver
CUDA 12.8: NVIDIA Driver release >= 570
CUDA 13.0: NVIDIA Driver release >= 580
Mulai cepat
Contoh berikut menunjukkan cara menarik citra inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.
Untuk menggunakan citra inference-nv-pytorch di ACS, pilih citra tersebut dari halaman Artifacts saat membuat workload di Konsol, atau tentukan referensi citra dalam file YAML. Untuk informasi selengkapnya, lihat topik-topik berikut tentang membangun layanan inferensi model dengan daya komputasi GPU ACS:
Tarik citra kontainer inferensi.
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Unduh model open source dalam format ModelScope.
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-InstructJalankan perintah berikut untuk memulai dan masuk ke kontainer.
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Jalankan pengujian inferensi pada fitur percakapan vLLM conversation feature.
Mulai layanan server.
python3 -m vllm.entrypoints.openai.api_server \ --model /mnt/Qwen2.5-7B-Instruct \ --trust-remote-code --disable-custom-all-reduce \ --tensor-parallel-size 1Jalankan pengujian pada klien.
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "You are a friendly AI assistant."}, {"role": "user", "content": "Tell me about deep learning."} ]}'Untuk informasi selengkapnya tentang cara menggunakan vLLM, lihat vLLM.
Isu yang diketahui
Plugin deepgpu-comfyui, yang mempercepat pembuatan video model Wanx, saat ini hanya mendukung tipe instans GN8IS dan G49E.