Pantau mesin inferensi vLLM/SGLang - Application Real-Time Monitoring Service

Agen Python Application Monitoring mencakup plugin vLLM/SGLang baru yang memungkinkan Anda memantau mesin inferensi vLLM/SGLang.

Catatan

ARMS saat ini hanya mendukung observabilitas untuk framework vLLM/SGLang.

Hubungkan ke PAI-EAS

Elastic Algorithm Service (EAS) adalah layanan PAI untuk inferensi online yang menyediakan platform terpadu untuk pengembangan, penerapan, dan penggunaan model. Anda dapat menerapkan layanan model ke kelompok sumber daya publik atau khusus. EAS memberikan tanggapan real-time terhadap permintaan pemuatan model dan data pada perangkat keras heterogen, seperti CPU dan GPU.

Langkah 1: Siapkan variabel lingkungan

export ARMS_APP_NAME=xxx   # Nama aplikasi EAS.
export ARMS_REGION_ID=xxx   # ID Wilayah untuk Akun Alibaba Cloud Anda.
export ARMS_LICENSE_KEY=xxx   # Kunci lisensi Alibaba Cloud.

Langkah 2: Ubah perintah run PAI-EAS

Masuk ke Konsol PAI. Di bagian atas halaman, pilih Wilayah tujuan, lalu navigasikan ke ruang kerja target.
Pada panel navigasi di sebelah kiri, pilih Model Deployment > Elastic Algorithm Service (EAS).
Pada tab Inference Service, temukan aplikasi yang ingin Anda aktifkan observabilitas modelnya, lalu klik Update di kolom Actions.

Ubah Run Command.

Contoh berikut menunjukkan cara menghubungkan ke model DeepSeek-R1-Distill-Qwen-7B.

Instruksi vLLM asli:

gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7B

Instruksi vLLM untuk menghubungkan ke Application Monitoring:

gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com; pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7B

Penjelasan bagian yang ditambahkan:

Konfigurasikan repositori PyPI sesuai kebutuhan.

pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com;

Unduh installer agen.
```
pip3 install aliyun-bootstrap;
```
Gunakan installer untuk menginstal agen.
Ganti cn-hangzhou dengan Wilayah Anda yang sebenarnya.
```
ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;
```

Perintah SGLang asli:

python -m sglang.launch_server --model-path /model_dir

Instruksi SGLang untuk menghubungkan ke Application Monitoring:

pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com; pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument python -m sglang.launch_server --model-path /model_dir

Penjelasan bagian yang ditambahkan:

Konfigurasikan repositori PyPI sesuai kebutuhan.

pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com;

Unduh installer agen.
```
pip3 install aliyun-bootstrap;
```
Gunakan installer untuk menginstal agen.
Ganti cn-hangzhou dengan Wilayah Anda yang sebenarnya.
```
ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;
```

Klik Update.

Hubungkan model dalam skenario umum

ARMS saat ini hanya mendukung versi resmi vLLM (V0 dan V1) dan SGLang. Versi yang dimodifikasi pengguna tidak didukung. Untuk informasi lebih lanjut tentang versi yang didukung, lihat layanan LLM (large language model).

ARMS mendukung dua skenario: completion dan chat. ARMS mengumpulkan dua rentang (span) untuk permintaan non-streaming dan tiga rentang untuk permintaan streaming.

Skenario yang didukung	Pemrosesan data	Konten yang dikumpulkan	vLLM V0	vLLM V1	SGLang
Chat atau completion	Streaming	span	http input/output llm_request: metrik utama	http input/output	http input/output metrik utama reasoning
	Streaming	Metrik utama TTFT/TPOP	Didukung	Tidak didukung	Didukung
	Non-streaming	span	http input/output	http input/output	http input/output
	Non-streaming	Metrik utama TTFT/TPOP	Tidak berlaku	Tidak berlaku	Tidak berlaku
Embedding		http	Tidak didukung	Tidak didukung	Tidak didukung
Rerank		http	Tidak didukung	Tidak didukung	Tidak didukung

Deskripsi rentang dan atribut penting

Atribut yang terkait dengan llm_request:

Atribut	Deskripsi
gen_ai.latency.e2e	Waktu end-to-end
gen_ai.latency.time_in_queue	Waktu dalam antrian
gen_ai.latency.time_in_scheduler	Waktu penjadwalan
gen_ai.latency.time_to_first_token	Waktu hingga token pertama
gen_ai.request.id	ID permintaan