Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.04.
Daftar fitur utama dan perbaikan bug
Fitur utama
vLLM ditingkatkan ke v0.8.5, mendukung model Qwen3.
Versi PyTorch gambar SGLang ditingkatkan ke 2.6.0, versi SGLang ditingkatkan ke v0.4.6.post1, mendukung model Qwen3.
Perbaikan bug
Tidak ada.
Konten
inferensi-nv-pytorch | inferensi-nv-pytorch | |
Tag | 25.04-vllm0.8.5-pytorch2.6-cu124-20250430-serverless | 25.04-sglang0.4.6.post1-pytorch2.6-cu124-20250430-serverless |
Skenario | Inferensi LLM | Inferensi LLM |
Kerangka | pytorch | pytorch |
Persyaratan | NVIDIA Driver release >= 550 | NVIDIA Driver release >= 550 |
Komponen sistem |
|
|
Aset
Gambar jaringan publik
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.04-vllm0.8.5-pytorch2.6-cu124-20250430-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.04-sglang0.4.6.post1-pytorch2.6-cu124-20250430-serverless
Gambar VPC
acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id}menunjukkan wilayah di mana ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.{image:tag}menunjukkan nama dan tag dari gambar tersebut.
Saat ini, Anda hanya dapat menarik gambar di wilayah China (Beijing) melalui VPC.
Gambar 25.04-vllm0.8.5-pytorch2.6-cu124-20250430-serverless dan 25.04-sglang0.4.6.post1-pytorch2.6-cu124-20250430-serverless berlaku untuk bentuk produk ACS dan bentuk produk multi-penyewa Lingjun, tetapi tidak berlaku untuk bentuk produk satu penyewa Lingjun.
Persyaratan driver
Rilis Driver NVIDIA >= 550
Memulai Cepat
Contoh berikut menggunakan Docker untuk menarik gambar inferensi-nv-pytorch dan menggunakan model Qwen2.5-7B-Instruct untuk menguji layanan inferensi.
Untuk menggunakan gambar inferensi-nv-pytorch di ACS, Anda harus memilih gambar dari halaman pusat artefak konsol tempat Anda membuat beban kerja, atau menentukan gambar dalam file YAML. Untuk informasi lebih lanjut, lihat topik-topik berikut:
Tarik gambar kontainer inferensi.
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Unduh model sumber terbuka dalam format modelscope.
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-InstructJalankan perintah berikut untuk masuk ke kontainer.
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Jalankan tes inferensi untuk menguji fitur percakapan inferensi vLLM.
Mulai layanan Server.
python3 -m vllm.entrypoints.openai.api_server \ --model /mnt/Qwen2.5-7B-Instruct \ --trust-remote-code --disable-custom-all-reduce \ --tensor-parallel-size 1Uji pada klien.
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "You are a friendly AI assistant."}, {"role": "user", "content": "Please introduce deep learning."} ]}'Untuk informasi lebih lanjut tentang cara bekerja dengan vLLM, lihat vLLM.
Masalah yang diketahui
Tidak ada.