全部产品
Search
文档中心

应用实时监控服务ARMS:对vLLM/SGLang推理引擎进行可观测

更新时间:Mar 17, 2026

应用监控的Python探针新增了vLLM/SGLang插件,支持对vLLM/SGLang推理引擎进行可观测。

说明

ARMS目前仅支持对 vLLM/SGLang 框架进行可观测。

PAI-EAS接入

模型在线服务EAS(Elastic Algorithm Service)是PAI产品为实现一站式模型开发部署应用,针对在线推理场景提供的模型在线服务,支持将模型服务部署在公共资源组或专属资源组,实现基于异构硬件(CPU和GPU)的模型加载和数据请求的实时响应。

步骤一:准备环境变量

export ARMS_APP_NAME=xxx   # EAS应用名称。
export ARMS_REGION_ID=xxx   # 对应的阿里云账号的RegionID。
export ARMS_LICENSE_KEY=xxx   # 阿里云 LicenseKey。

步骤二:修改PAI-EAS运行命令

  1. 登录PAI控制台,在页面上方选择目标地域,然后进入目标工作空间。

  2. 在左侧导航栏选择模型部署> > 模型在线服务(EAS)

  3. 推理服务页签选择要接入模型观测的应用,然后单击操作列的更新

  4. 修改运行命令

    以接入DeepSeek-R1-Distill-Qwen-7B模型为例。

    vLLM原始指令:

    gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7B

    接入应用监控对应的vLLM指令:

    gpu_count=$(nvidia-smi --query-gpu=count --format=csv,noheader | wc -l);export PIP_INDEX_URL=http://mirrors.cloud.aliyuncs.com/pypi/simple; export PIP_TRUSTED_HOST=mirrors.cloud.aliyuncs.com;pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument vllm serve /model_dir --host 0.0.0.0 --port 8000 --root-path '/' --trust-remote-code --gpu-memory-utilization 0.95 --max-model-len 32768 --tensor-parallel-size $gpu_count --served-model-name DeepSeek-R1-Distill-Qwen-7B

    新增部分说明:

    1. 配置 pypi 仓库,可以根据实际情况调整。

      export PIP_INDEX_URL=http://mirrors.cloud.aliyuncs.com/pypi/simple; export PIP_TRUSTED_HOST=mirrors.cloud.aliyuncs.com;
    2. 下载探针安装器。

      pip3 install aliyun-bootstrap;
    3. 使用安装器安装探针。

      请根据实际地域替换cn-hangzhou

      ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;

    SGLang原始命令:

    python -m sglang.launch_server --model-path /model_dir

    接入应用监控对应的SGLang指令:

    export PIP_INDEX_URL=http://mirrors.cloud.aliyuncs.com/pypi/simple; export PIP_TRUSTED_HOST=mirrors.cloud.aliyuncs.com;pip3 install aliyun-bootstrap;ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;ARMS_APP_NAME=qwq32 ARMS_LICENSE_KEY=it0kjz0oxz@3115ad****** ARMS_REGION_ID=cn-hangzhou aliyun-instrument python -m sglang.launch_server --model-path /model_dir

    新增部分说明:

    1. 配置 pipy 仓库,可以根据实际情况调整。

      export PIP_INDEX_URL=http://mirrors.cloud.aliyuncs.com/pypi/simple; export PIP_TRUSTED_HOST=mirrors.cloud.aliyuncs.com;
    2. 下载探针安装器。

      pip3 install aliyun-bootstrap;
    3. 使用安装器安装探针。

      请根据实际地域替换cn-hangzhou

      ARMS_REGION_ID=cn-hangzhou aliyun-bootstrap -a install;
  5. 单击更新

通用场景模型接入

ARMS 目前只支持官方提供的 vLLM 版本(V0和V1版本)和 SGLang 版本,具体支持的版本范围请参考LLM(大语言模型)服务,用户修改过的版本不支持接入。

ARMS 支持补全和对话两个场景,如果是非流式请求会采集 2 个 Span,流式请求会采集 3 个 Span。

支持的场景

数据处理

采集内容

vLLM V0

vLLM V1

SGLang

chat 对话

or

completion 补全

流式

span

  • http

  • input/output

  • llm_request: key metrics

  • http

  • input/output

  • http

  • input/output

  • key metrics

  • reasoning(思考)

key metrics

TTFT/TPOT

支持

支持

支持

非流式

span

  • http

  • input/output

  • http

  • input/output

  • http

  • input/output

key metrics

TTFT/TPOT

不适用

不适用

不适用

Embedding

http

不支持

支持

不支持

Rerank

http

不支持

支持

不支持

重要Span及Attributes说明

llm_request相关:

Attribute

描述

gen_ai.latency.e2e

端到端的时间

gen_ai.latency.time_in_queue

进入队列的时间

gen_ai.latency.time_in_scheduler

调度时间

gen_ai.latency.time_to_first_token

首包时间

gen_ai.request.id

请求ID

指标说明

vLLM

维度说明

维度名称

维度 Key

示例

说明

模型名称

modelName / model_name

qwen-7b, llama3-8b

模型名称

引擎索引

engine_index

0, 1, 2

V1 版本专用,引擎实例索引

操作类型

spanKind

LLM

LLM 类型操作

使用类型

usageType

input, output

Token 相关指标专用,代表Token的类型

结束原因

finished_reason

stop

请求结束的原因

通用指标(V0/V1 共用)

指标名称

指标

指标类型

单位

说明

迭代次数

vllm_iter_count

Counter

迭代计数

成功请求次数

gen_ai_vllm_request_success

Counter

成功处理的请求数量

首 Token 耗时

genai_llm_first_token_seconds

Counter

首Token 生成时间

单 Token 输出耗时

gen_ai_server_time_per_output_token

Counter

每个输出 Token 的生成时间

端到端请求耗时

gen_ai_server_request_duration

Counter

请求端到端延迟

Token 使用量

llm_usage_tokens

Counter

Token 使用数量(区分 input/output)

V0 版本系统指标

指标名称

指标

指标类型

单位

说明

GPU 缓存使用率

gpu_cache_usage_sys

Gauge

系统 GPU 缓存使用率

CPU 缓存使用率

cpu_cache_usage_sys

Gauge

系统 CPU 缓存使用率

运行中序列数

num_running_sys

Gauge

系统中正在运行的序列数量

等待中序列数

num_waiting_sys

Gauge

系统中等待处理的序列数量

已交换序列数

num_swapped_sys

Gauge

系统中已交换的序列数量

V0 版本迭代指标

指标名称

指标

指标类型

单位

说明

迭代 Prompt Token 数

num_prompt_tokens_iter

Counter

当前迭代中的 Prompt Token 数量

迭代生成 Token 数

num_generation_tokens_iter

Counter

当前迭代中生成的 Token 数量

迭代总 Token 数

num_tokens_iter

Counter

当前迭代中的总 Token 数量

迭代抢占次数

num_preemption_iter

Counter

当前迭代中的抢占次数

V1 版本系统指标

指标名称

指标

指标类型

单位

说明

运行中请求数

gen_ai_vllm_num_requests_running

Gauge

模型执行批次中的请求数量

等待中请求数

gen_ai_vllm_num_requests_waiting

Gauge

等待处理的请求数量

KV 缓存使用率

gen_ai_vllm_kv_cache_usage_perc

Gauge

KV 缓存使用率,范围 [0,1]

前缀缓存查询数

gen_ai_vllm_prefix_cache_queries

Counter

前缀缓存查询次数(按查询 Token 数计)

前缀缓存命中数

gen_ai_vllm_prefix_cache_hits

Counter

前缀缓存命中次数(按缓存 Token 数计)

V1 版本迭代指标

指标名称

指标

指标类型

单位

说明

抢占次数

gen_ai_vllm_num_preemptions

Counter

引擎累计抢占次数

Prompt Token 数

gen_ai_vllm_prompt_tokens

Counter

已处理的 Prefill Token 数量

生成 Token 数

gen_ai_vllm_generation_tokens

Counter

已处理的生成 Token 数量

请求参数 n

gen_ai_vllm_request_params_n

Counter

请求参数 n 的值

请求参数 max_tokens

gen_ai_vllm_request_params_max_tokens

Counter

请求参数 max_tokens 的值

V1 版本请求耗时指标

指标名称

指标

指标类型

单位

说明

请求排队耗时

gen_ai_vllm_request_queue_time_seconds

Counter

请求在 WAITING 阶段花费的时间

请求 Prefill 耗时

gen_ai_vllm_request_prefill_time_seconds

Counter

请求在 PREFILL 阶段花费的时间

请求 Decode 耗时

gen_ai_vllm_request_decode_time_seconds

Counter

请求在 DECODE 阶段花费的时间

请求推理耗时

gen_ai_vllm_request_inference_time_seconds

Counter

请求在 RUNNING 阶段花费的时间

SGLang

维度说明

维度名称

维度 Key

示例

说明

模型名称

modelName / model_name

qwen-7b, deepseek-r1

模型名称

操作类型

spanKind

LLM

LLM 类型操作

使用类型

usageType

input, output

Token 相关指标专用

调用类型

callType

gen_ai

默认值为 gen_ai

RPC类型

rpcType

2100

RPC 类型标识

系统状态指标

指标名称

指标

指标类型

单位

说明

运行中请求数

sglang_num_running_reqs

Counter

当前正在运行的请求数量

队列中请求数

sglang_num_queue_reqs

Counter

队列中等待处理的请求数量

日志统计次数

sglang_log_count

Counter

日志统计计数

Token 相关指标

指标名称

指标

指标类型

单位

说明

已使用 Token 数

sglang_num_used_tokens

Counter

当前正在使用的 Token 数量

Token 使用率

sglang_token_usage

Counter

Token 使用率

Prompt Token 总数

prompt_tokens_total

Counter

累计 Prompt Token 数量

生成 Token 总数

generation_tokens_total

Counter

累计生成 Token 数量

缓存 Token 总数

gen_ai_sglang_cached_tokens_total

Counter

缓存的 Prompt Token 数量

Token 使用量

llm_usage_tokens

Counter

Token 使用数量(区分 input/output)

性能指标

指标名称

指标

指标类型

单位

说明

生成吞吐量

sglang_gen_throughput

Counter

每秒生成的 Token 数量

首 Token 耗时

gen_ai_server_time_to_first_token

Counter

首个 Token 生成时间

单 Token 输出耗时

gen_ai_server_time_per_output_token

Counter

每个输出 Token 的生成时间

Token 间延迟

sglang_inter_token_latency_seconds

Counter

Token 之间的生成延迟

端到端请求耗时

gen_ai_server_request_duration

Counter

请求端到端延迟

缓存与推测执行指标

指标名称

指标

指标类型

单位

说明

缓存命中率

gen_ai_sglang_cache_hit_rate

Counter

缓存命中率

推测接受长度

sglang_spec_accept_length

Counter

推测解码接受的长度

请求统计指标

指标名称

指标

指标类型

单位

说明

请求总数

num_requests_total

Counter

累计处理的请求

重要配置说明

配置项环境变量名

描述

OTEL_INSTRUMENTATION_VLLM_TRACING_LEVEL

vLLM推理引擎的观测粒度:

0:只记录请求级别的Span(llm_request Span)。

1:额外记录推理不同阶段的Span(Wait/Prefill/Decode Span)。

2:额外记录每个Token生成的详细事件,记录在llm_request Span的Span Event中。

OTEL_SPAN_EVENT_COUNT_LIMIT

在OTEL_INSTRUMENTATION_VLLM_TRACING_LEVEL被设置为2时,最多可以观测到的Token生成事件的个数,默认为128。