全部产品
Search
文档中心

Application Real-Time Monitoring Service:Pantau mesin inferensi vLLM/SGLang

更新时间:Dec 18, 2025

Agen Python Application Monitoring mencakup plugin vLLM/SGLang baru yang memungkinkan Anda memantau mesin inferensi vLLM/SGLang.

Catatan

ARMS saat ini hanya mendukung observabilitas untuk framework vLLM/SGLang.

Hubungkan ke PAI-EAS

Elastic Algorithm Service (EAS) adalah layanan PAI untuk inferensi online yang menyediakan platform terpadu untuk pengembangan, penerapan, dan penggunaan model. Anda dapat menerapkan layanan model ke kelompok sumber daya publik atau khusus. EAS memberikan tanggapan real-time terhadap permintaan pemuatan model dan data pada perangkat keras heterogen, seperti CPU dan GPU.

Langkah 1: Siapkan variabel lingkungan

export ARMS_APP_NAME=xxx   # Nama aplikasi EAS.
export ARMS_REGION_ID=xxx   # ID Wilayah untuk Akun Alibaba Cloud Anda.
export ARMS_LICENSE_KEY=xxx   # Kunci lisensi Alibaba Cloud.

Langkah 2: Ubah perintah run PAI-EAS

  1. Masuk ke Konsol PAI. Di bagian atas halaman, pilih Wilayah tujuan, lalu navigasikan ke ruang kerja target.

  2. Pada panel navigasi di sebelah kiri, pilih Model Deployment > Elastic Algorithm Service (EAS).

  3. Pada tab Inference Service, temukan aplikasi yang ingin Anda aktifkan observabilitas modelnya, lalu klik Update di kolom Actions.

  4. Ubah Run Command.

    Contoh berikut menunjukkan cara menghubungkan ke model DeepSeek-R1-Distill-Qwen-7B.

    Instruksi vLLM asli:

    gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7B

    Instruksi vLLM untuk menghubungkan ke Application Monitoring:

    gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com; pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7B

    Penjelasan bagian yang ditambahkan:

    1. Konfigurasikan repositori PyPI sesuai kebutuhan.

      pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com;
    2. Unduh installer agen.

      pip3 install aliyun-bootstrap;
    3. Gunakan installer untuk menginstal agen.

      Ganti cn-hangzhou dengan Wilayah Anda yang sebenarnya.

      ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;

    Perintah SGLang asli:

    python -m sglang.launch_server --model-path /model_dir

    Instruksi SGLang untuk menghubungkan ke Application Monitoring:

    pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com; pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument python -m sglang.launch_server --model-path /model_dir

    Penjelasan bagian yang ditambahkan:

    1. Konfigurasikan repositori PyPI sesuai kebutuhan.

      pip3 config set global.index-url https://mirrors.aliyun.com/pypi/simple/ ; pip3 config set install.trusted-host mirrors.aliyun.com;
    2. Unduh installer agen.

      pip3 install aliyun-bootstrap;
    3. Gunakan installer untuk menginstal agen.

      Ganti cn-hangzhou dengan Wilayah Anda yang sebenarnya.

      ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;
  5. Klik Update.

Hubungkan model dalam skenario umum

ARMS saat ini hanya mendukung versi resmi vLLM (V0 dan V1) dan SGLang. Versi yang dimodifikasi pengguna tidak didukung. Untuk informasi lebih lanjut tentang versi yang didukung, lihat layanan LLM (large language model).

ARMS mendukung dua skenario: completion dan chat. ARMS mengumpulkan dua rentang (span) untuk permintaan non-streaming dan tiga rentang untuk permintaan streaming.

Skenario yang didukung

Pemrosesan data

Konten yang dikumpulkan

vLLM V0

vLLM V1

SGLang

Chat

atau

completion

Streaming

span

  • http

  • input/output

  • llm_request: metrik utama

  • http

  • input/output

  • http

  • input/output

  • metrik utama

  • reasoning

Metrik utama

TTFT/TPOP

Didukung

Tidak didukung

Didukung

Non-streaming

span

  • http

  • input/output

  • http

  • input/output

  • http

  • input/output

Metrik utama

TTFT/TPOP

Tidak berlaku

Tidak berlaku

Tidak berlaku

Embedding

http

Tidak didukung

Tidak didukung

Tidak didukung

Rerank

http

Tidak didukung

Tidak didukung

Tidak didukung

Deskripsi rentang dan atribut penting

Atribut yang terkait dengan llm_request:

Atribut

Deskripsi

gen_ai.latency.e2e

Waktu end-to-end

gen_ai.latency.time_in_queue

Waktu dalam antrian

gen_ai.latency.time_in_scheduler

Waktu penjadwalan

gen_ai.latency.time_to_first_token

Waktu hingga token pertama

gen_ai.request.id

ID permintaan