inferensi-nv-pytorch 25.02 - Container Compute Service

Topik ini menjelaskan catatan rilis untuk inferensi-nv-pytorch 25.02.

Fitur Utama dan Daftar Perbaikan Bug

Fitur Utama

vLLM diperbarui ke versi v0.7.2.
SGLang versi v0.4.3.post2 didukung.
Model DeepSeek didukung.

Perbaikan Bug

Tidak ada.

Konten

Skenario penggunaan	Inferensi LLM
Kerangka kerja	pytorch
Persyaratan	NVIDIA Driver release >= 550
Komponen sistem	Ubuntu 22.04 Python 3.10 Torch 2.5.1 CUDA 12.4 transformers 4.48.3 triton 3.1.0 ray 2.42.1 vlllm 0.7.2 sgl-kernel 0.0.3.post6 sglang 0.4.3.post2 flashinfer-python 0.2.1.post2 ACCL-N 2.23.4.11

Aset

Image publik

egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:25.02-vllm0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250305-serverless

VPC image

acs-registry-vpc.{region-id}.cr.aliyuncs.com/egslingjun/{image:tag}
{region-id} menunjukkan region tempat ACS Anda diaktifkan, seperti cn-beijing.
{image:tag} menunjukkan nama dan tag dari image tersebut.

Penting

Saat ini, Anda hanya dapat menarik image di wilayah China (Beijing) melalui VPC.

Catatan

Image inference-nv-pytorch:25.02-vllm0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250305-serverless cocok untuk produk ACS dan produk multi-tenant Lingjun. Tidak cocok untuk produk single-tenant Lingjun.
Image inference-nv-pytorch:25.02-vllm0.7.2-sglang0.4.3.post2-pytorch2.5-cuda12.4-20250305 cocok untuk skenario single-tenant Lingjun.

Persyaratan Driver

NVIDIA Driver release >= 550

Memulai Cepat

Contoh berikut menggunakan Docker untuk menarik image inferensi-nv-pytorch dan menguji layanan inferensi dengan model Qwen2.5-7B-Instruct.

Catatan

Untuk menggunakan image inferensi-nv-pytorch di ACS, Anda harus memilih image dari halaman pusat artefak konsol tempat Anda membuat beban kerja, atau menentukan image dalam file YAML. Untuk informasi lebih lanjut, lihat topik berikut:

Tarik image kontainer inferensi.

docker pull egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]

Unduh model open source dalam format modelscope.

pip install modelscope
cd /mnt
modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct

Jalankan perintah berikut untuk masuk ke kontainer.

docker run -d -t --network=host --privileged --init --ipc=host \
--ulimit memlock=-1 --ulimit stack=67108864  \
-v /mnt/:/mnt/ \
egslingjun-registry.cn-wulanchabu.cr.aliyuncs.com/egslingjun/inference-nv-pytorch:[tag]

Jalankan tes inferensi untuk menguji fitur percakapan inferensi vLLM.

Mulai layanan Server.

python3 -m vllm.entrypoints.openai.api_server \
--model /mnt/Qwen2.5-7B-Instruct \
--trust-remote-code --disable-custom-all-reduce \
--tensor-parallel-size 1

Uji pada klien.

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "/mnt/Qwen2.5-7B-Instruct",  
    "messages": [
    {"role": "system", "content": "You are a friendly AI assistant."},
    {"role": "user", "content": "Please introduce deep learning."}
    ]}'

Untuk informasi lebih lanjut tentang cara bekerja dengan vLLM, lihat vLLM.

Masalah Diketahui

Akses memori ilegal untuk MoE On H20 #13693. Kami merekomendasikan Anda untuk memperbarui vLLM.