Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.05.
Fitur utama dan perbaikan bug
Fitur utama
Sistem operasi gambar vLLM telah ditingkatkan ke Ubuntu 24.04, versi Python diperbarui ke 3.12, versi CUDA ditingkatkan ke 12.8, dan versi vLLM diperbarui ke v0.8.5.post1.
Versi SGLang dalam gambar SGLang ditingkatkan ke v0.4.6.post4.
Perbaikan bug
Tidak ada.
Konten
inferensi-nv-pytorch | inferensi-nv-pytorch | |
Tag | 25.05-vllm0.8.5.post1-pytorch2.7-cu128-20250513-serverless | 25.05-sglang0.4.6.post4-pytorch2.6-cu124-20250513-serverless |
Skenario | Inferensi LLM | Inferensi LLM |
Kerangka kerja | PyTorch | PyTorch |
Persyaratan | Rilis driver NVIDIA >= 570 | Rilis driver NVIDIA >= 550 |
Komponen sistem |
|
|
Aset
Gambar jaringan publik
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:25.05-vllm0.8.5.post1-pytorch2.7-cu128-20250513-serverless
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:25.05-sglang0.4.6.post4-pytorch2.6-cu124-20250513-serverless
Gambar VPC
acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id}menunjukkan wilayah di mana ACS Anda diaktifkan, seperti cn-beijing dan cn-wulanchabu.{image:tag}menunjukkan nama dan tag dari gambar.
Saat ini, Anda hanya dapat menarik gambar di wilayah China (Beijing) melalui VPC.
Gambar 25.05-vllm0.8.5.post1-pytorch2.7-cu128-20250513-serverless dan 25.05-sglang0.4.6.post4-pytorch2.6-cu124-20250513-serverless berlaku untuk layanan ACS dan layanan multi-tenant Lingjun, tetapi tidak berlaku untuk layanan single-tenant Lingjun.
Persyaratan driver
Untuk gambar CUDA 12.8: Rilis driver NVIDIA >= 570.
Untuk gambar CUDA 12.4: Rilis driver NVIDIA >= 550.
Memulai Cepat
Contoh berikut menggunakan Docker untuk menarik gambar inferensi-nv-pytorch dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.
Untuk menggunakan gambar inferensi-nv-pytorch di ACS, Anda harus memilih gambar dari halaman pusat artefak konsol tempat Anda membuat beban kerja atau menentukan gambar dalam file YAML. Untuk informasi lebih lanjut, lihat topik berikut:
Tarik gambar kontainer inferensi.
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:[tag]Unduh model sumber terbuka dalam format modelscope.
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-InstructJalankan perintah berikut untuk masuk ke kontainer.
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inferensi-nv-pytorch:[tag]Jalankan tes inferensi untuk menguji fitur percakapan inferensi vLLM.
Mulai layanan Server.
python3 -m vllm.entrypoints.openai.api_server \ --model /mnt/Qwen2.5-7B-Instruct \ --trust-remote-code --disable-custom-all-reduce \ --tensor-parallel-size 1Uji pada klien.
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "You are a friendly AI assistant."}, {"role": "user", "content": "Please introduce deep learning."} ]}'Untuk informasi lebih lanjut tentang cara bekerja dengan vLLM, lihat vLLM.
Masalah yang diketahui
Tidak ada.