Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.08.
Daftar fitur utama dan perbaikan bug
Fitur utama
Peningkatan vLLM ke v0.10.0.
Peningkatan SGLang ke v0.4.10.post2.
Perbaikan bug
(Tidak ada)
Isi
inferensi-nv-pytorch | inferensi-nv-pytorch | |
Tag | 25.08-vllm0.10.0-pytorch2.7-cu128-20250811-serverless | 25.08-sglang0.4.10.post2-pytorch2.7-cu128-20250808-serverless |
Skenario aplikasi | Inferensi model besar | Inferensi model besar |
Kerangka kerja | PyTorch | PyTorch |
Persyaratan | NVIDIA Driver release >= 570 | NVIDIA Driver release >= 570 |
Komponen sistem |
|
|
Aset
Gambar Internet
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.08-vllm0.10.0-pytorch2.7-cu128-20250811-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.08-sglang0.4.10.post2-pytorch2.7-cu128-20250808-serverless
Gambar VPC
acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id}menunjukkan wilayah tempat ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.{image:tag}menunjukkan nama dan tag dari gambar tersebut.
Saat ini, Anda hanya dapat menarik gambar di wilayah Tiongkok (Beijing) melalui VPC.
Gambar inference-nv-pytorch:25.08-vllm0.10.0-pytorch2.7-cu128-20250811-serverless dan inference-nv-pytorch:25.08-sglang0.4.10.post2-pytorch2.7-cu128-20250808-serverless berlaku untuk produk ACS dan produk multi-penyewa Lingjun, tetapi tidak untuk produk satu penyewa Lingjun.
Persyaratan driver
NVIDIA Driver release >= 570
Memulai cepat
Contoh berikut menunjukkan cara menarik gambar inference-nv-pytorch menggunakan Docker dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.
Untuk menggunakan gambar inference-nv-pytorch di ACS, Anda dapat memilih gambar pada halaman Artifacts saat membuat beban kerja di Konsol, atau menentukan referensi gambar dalam File YAML. Untuk informasi lebih lanjut, lihat topik berikut tentang membangun layanan inferensi model menggunakan daya komputasi GPU ACS:
Tarik gambar kontainer inferensi.
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Unduh model open-source dalam format ModelScope.
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-InstructJalankan perintah berikut untuk memulai dan masuk ke kontainer.
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Uji fitur inferensi dan percakapan vLLM.
Mulai layanan.
python3 -m vllm.entrypoints.openai.api_server \ --model /mnt/Qwen2.5-7B-Instruct \ --trust-remote-code --disable-custom-all-reduce \ --tensor-parallel-size 1Jalankan tes dari klien.
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "You are a friendly AI assistant."}, {"role": "user", "content": "Tell me about deep learning."} ]}'Untuk informasi lebih lanjut tentang cara menggunakan vLLM, lihat vLLM.
Masalah yang diketahui
Plug-in deepgpu-comfyui, yang mempercepat pembuatan video untuk model Wanx, saat ini hanya mendukung GN8IS dan G49E.