inference-nv-pytorch 25.02 memperbarui vLLM ke v0.7.2, menambahkan dukungan SGLang v0.4.3.post2, dan mengaktifkan inferensi model DeepSeek.
Fitur baru
-
vLLM diperbarui ke v0.7.2
-
SGLang v0.4.3.post2 didukung
-
Model DeepSeek didukung — jalankan inferensi model DeepSeek secara langsung di dalam kontainer.
Perbaikan bug
Tidak ada.
Komponen sistem
Persyaratan
| Component | Version |
|---|---|
| NVIDIA Driver | >= 550 |
| Ubuntu | 22.04 |
Paket yang telah diinstal
| Package | Version |
|---|---|
| Python | 3.10 |
| PyTorch | 2.5.1 |
| CUDA | 12.4 |
| transformers | 4.48.3 |
| triton | 3.1.0 |
| ray | 2.42.1 |
| vLLM | 0.7.2 |
| sgl-kernel | 0.0.3.post6 |
| SGLang | 0.4.3.post2 |
| flashinfer-python | 0.2.1.post2 |
| ACCL-N | 2.23.4.11 |
Gambar kontainer
Gambar publik
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.02-vllm0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250305-serverless
Gambar VPC
acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
Ganti {region-id} dengan region tempat ACS Anda diaktifkan (misalnya, cn-beijing), dan ganti {image:tag} dengan nama dan tag gambar tersebut.
Pengambilan gambar VPC saat ini hanya tersedia di wilayah China (Beijing).
Kompatibilitas gambar
Dua varian gambar tersedia. Pilih berdasarkan target penerapan Anda:
| Image tag | Compatible with |
|---|---|
...20250305-serverless |
Produk ACS dan produk multi-tenant Lingjun |
...20250305 (tanpa akhiran -serverless) |
Produk single-tenant Lingjun |
Gambar dengan akhiran -serverless tidak kompatibel dengan produk single-tenant Lingjun. Gunakan gambar tanpa akhiran -serverless untuk penerapan single-tenant.
Panduan cepat
Langkah-langkah berikut menggunakan Docker untuk menarik gambar inference-nv-pytorch dan menjalankan pengujian inferensi dengan model Qwen2.5-7B-Instruct.
Untuk menerapkan gambar ini di ACS, pilih gambar dari halaman pusat artefak di Konsol ACS, atau tentukan dalam file YAML — jangan gunakan docker pull secara langsung. Untuk panduan penerapan ACS, lihat Langkah selanjutnya.
Prasyarat
-
Docker telah diinstal dan berjalan.
-
NVIDIA Driver rilis >= 550.
Jalankan pengujian inferensi
-
Tarik gambar kontainer.
docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]Ganti
[tag]dengan tag gambar untuk target penerapan Anda (lihat Kompatibilitas gambar). -
Unduh model Qwen2.5-7B-Instruct dari ModelScope.
pip install modelscope cd /mnt modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct -
Jalankan kontainer.
docker run -d -t --network=host --privileged --init --ipc=host \ --ulimit memlock=-1 --ulimit stack=67108864 \ -v /mnt/:/mnt/ \ egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag] -
Jalankan server vLLM di dalam kontainer.
python3 -m vllm.entrypoints.openai.api_server \ --model /mnt/Qwen2.5-7B-Instruct \ --trust-remote-code --disable-custom-all-reduce \ --tensor-parallel-size 1 -
Kirim permintaan uji ke server.
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/mnt/Qwen2.5-7B-Instruct", "messages": [ {"role": "system", "content": "You are a friendly AI assistant."}, {"role": "user", "content": "Please introduce deep learning."} ] }'Untuk informasi lebih lanjut tentang vLLM, lihat dokumentasi vLLM.
Isu yang diketahui
-
Akses memori ilegal untuk MoE pada H20 (#13693): Perbarui vLLM untuk menyelesaikan isu ini.
Langkah selanjutnya
Untuk menerapkan inference-nv-pytorch di ACS, lihat: