Dokumen ini menyediakan catatan rilis untuk inference-nv-pytorch versi 25.11.
Fitur utama dan perbaikan bug
Fitur utama
Rilis ini mencakup citra untuk dua versi CUDA: CUDA 12.8 dan CUDA 13.0.
Citra CUDA 12.8 hanya mendukung arsitektur amd64.
Citra CUDA 13.0 mendukung arsitektur amd64 dan aarch64.
Versi PyTorch ditingkatkan ke 2.9.0.
Untuk citra CUDA 12.8, deepgpu-comfyui ditingkatkan ke 1.3.2, dan komponen optimasi deepgpu-torch ditingkatkan ke 0.1.12+torch2.9.0cu128.
Untuk citra CUDA 12.8 dan CUDA 13.0, versi vLLM ditingkatkan ke v0.11.2, dan versi SGLang ditingkatkan ke v0.5.5.post3.
Perbaikan bug
Tidak ada
Konten
Nama citra | inference-nv-pytorch | |||||
Tag citra | 25.11-vllm0.11.1-pytorch2.9-cu128-20251120-serverless | 25.11-sglang0.5.5.post3-pytorch2.9-cu128-20251121-serverless | 25.11-vllm0.11.1-pytorch2.9-cu130-20251120-serverless | 25.11-sglang0.5.5.post3-pytorch2.9-cu130-20251121-serverless | ||
Arsitektur yang didukung | amd64 | amd64 | amd64 | aarch64 | amd64 | aarch64 |
Skenario aplikasi | Inferensi model besar | Inferensi model besar | Inferensi model besar | Inferensi model besar | Inferensi model besar | Inferensi model besar |
Framework | pytorch | pytorch | pytorch | pytorch | pytorch | pytorch |
Persyaratan | NVIDIA Driver release >= 570 | NVIDIA Driver release >= 570 | NVIDIA Driver release >= 580 | NVIDIA Driver release >= 580 | NVIDIA Driver release >= 580 | NVIDIA Driver release >= 580 |
Komponen sistem |
|
|
|
|
|
|
Aset
Citra jaringan publik
Aset CUDA 12.8
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-vllm0.11.1-pytorch2.9-cu128-20251120-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-sglang0.5.5.post3-pytorch2.9-cu128-20251121-serverless
Aset CUDA 13.0
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-vllm0.11.1-pytorch2.9-cu130-20251120-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.11-sglang0.5.5.post3-pytorch2.9-cu130-20251121-serverless
Citra VPC
Untuk mempercepat pengambilan citra kontainer AI ACS dari dalam VPC, ganti URI aset egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/{image:tag} dengan acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}.
{region-id}: ID wilayah wilayah yang tersedia tempat Produk ACS Anda berada. Contohnya,cn-beijingdancn-wulanchabu.{image:tag}: Nama dan tag citra kontainer AI. Contohnya,inference-nv-pytorch:25.10-vllm0.11.0-pytorch2.8-cu128-20251028-serverlessdantraining-nv-pytorch:25.10-serverless.
Citra-citra ini dirancang untuk produk ACS dan produk multi-tenant Lingjun. Citra ini tidak didukung untuk produk single-tenant Lingjun. Jangan gunakan citra ini dalam skenario single-tenant.
Persyaratan driver
CUDA 12.8: Versi NVIDIA Driver 570 atau lebih baru
CUDA 13.0: Versi NVIDIA Driver 580 atau lebih baru
Mulai cepat
Contoh berikut menunjukkan cara menarik citra inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.
Untuk menggunakan citra inference-nv-pytorch di ACS, pilih citra tersebut pada halaman Artifacts saat membuat workload di Konsol, atau tentukan referensi citra dalam file YAML. Untuk informasi selengkapnya, lihat topik-topik berikut tentang cara membangun layanan inferensi model menggunakan daya komputasi GPU ACS:
Tarik citra kontainer inferensi.
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Unduh model open source dari ModelScope.
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-InstructJalankan perintah berikut untuk masuk ke kontainer.
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Uji fitur inferensi percakapan vLLM.
Jalankan layanan sisi server.
python3 -m vllm.entrypoints.openai.api_server \ --model /mnt/Qwen2.5-7B-Instruct \ --trust-remote-code --disable-custom-all-reduce \ --tensor-parallel-size 1Jalankan pengujian pada client.
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "You are a friendly AI assistant."}, {"role": "user", "content": "Introduce deep learning."} ]}'Untuk informasi selengkapnya tentang cara menggunakan vLLM, lihat vLLM.
Isu yang diketahui
Plugin deepgpu-comfyui untuk mempercepat pembuatan video model Wanx saat ini hanya mendukung tipe instans GN8IS, G49E, dan G59.