Agen Python Application Monitoring mencakup plugin vLLM/SGLang baru yang memungkinkan Anda memantau mesin inferensi vLLM/SGLang.
ARMS saat ini hanya mendukung observabilitas untuk framework vLLM/SGLang.
Hubungkan ke PAI-EAS
Elastic Algorithm Service (EAS) adalah layanan PAI untuk inferensi online yang menyediakan platform terpadu untuk pengembangan, penerapan, dan penggunaan model. Anda dapat menerapkan layanan model ke kelompok sumber daya publik atau khusus. EAS memberikan tanggapan real-time terhadap permintaan pemuatan model dan data pada perangkat keras heterogen, seperti CPU dan GPU.
Langkah 1: Siapkan variabel lingkungan
export ARMS_APP_NAME=xxx # Nama aplikasi EAS.
export ARMS_REGION_ID=xxx # ID Wilayah untuk Akun Alibaba Cloud Anda.
export ARMS_LICENSE_KEY=xxx # Kunci lisensi Alibaba Cloud.Langkah 2: Ubah perintah run PAI-EAS
Masuk ke Konsol PAI. Di bagian atas halaman, pilih Wilayah tujuan, lalu navigasikan ke ruang kerja target.
Pada panel navigasi di sebelah kiri, pilih .
Pada tab Inference Service, temukan aplikasi yang ingin Anda aktifkan observabilitas modelnya, lalu klik Update di kolom Actions.
Ubah Run Command.
Contoh berikut menunjukkan cara menghubungkan ke model DeepSeek-R1-Distill-Qwen-7B.
Instruksi vLLM asli:
gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7BInstruksi vLLM untuk menghubungkan ke Application Monitoring:
gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com; pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7BPenjelasan bagian yang ditambahkan:
Konfigurasikan repositori PyPI sesuai kebutuhan.
pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com;Unduh installer agen.
pip3 install aliyun-bootstrap;Gunakan installer untuk menginstal agen.
Ganti
cn-hangzhoudengan Wilayah Anda yang sebenarnya.ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;
Perintah SGLang asli:
python -m sglang.launch_server --model-path /model_dirInstruksi SGLang untuk menghubungkan ke Application Monitoring:
pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com; pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument python -m sglang.launch_server --model-path /model_dirPenjelasan bagian yang ditambahkan:
Konfigurasikan repositori PyPI sesuai kebutuhan.
pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com;Unduh installer agen.
pip3 install aliyun-bootstrap;Gunakan installer untuk menginstal agen.
Ganti
cn-hangzhoudengan Wilayah Anda yang sebenarnya.ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;
Klik Update.
Hubungkan model dalam skenario umum
ARMS saat ini hanya mendukung versi resmi vLLM (V0 dan V1) dan SGLang. Versi yang dimodifikasi pengguna tidak didukung. Untuk informasi lebih lanjut tentang versi yang didukung, lihat layanan LLM (large language model).
ARMS mendukung dua skenario: completion dan chat. ARMS mengumpulkan dua rentang (span) untuk permintaan non-streaming dan tiga rentang untuk permintaan streaming.
Skenario yang didukung | Pemrosesan data | Konten yang dikumpulkan | vLLM V0 | vLLM V1 | SGLang |
Chat atau completion | Streaming | span |
|
|
|
Metrik utama TTFT/TPOP | Didukung | Tidak didukung | Didukung | ||
Non-streaming | span |
|
|
| |
Metrik utama TTFT/TPOP | Tidak berlaku | Tidak berlaku | Tidak berlaku | ||
Embedding | http | Tidak didukung | Tidak didukung | Tidak didukung | |
Rerank | http | Tidak didukung | Tidak didukung | Tidak didukung | |
Deskripsi rentang dan atribut penting
Atribut yang terkait dengan llm_request:
Atribut | Deskripsi |
gen_ai.latency.e2e | Waktu end-to-end |
gen_ai.latency.time_in_queue | Waktu dalam antrian |
gen_ai.latency.time_in_scheduler | Waktu penjadwalan |
gen_ai.latency.time_to_first_token | Waktu hingga token pertama |
gen_ai.request.id | ID permintaan |