全部產品
Search
文件中心

Function Compute:LLM指標監控

更新時間:Mar 26, 2026

Function Compute支援對 GPU 函數中的 LLM 推理服務進行指標監控,可在控制台查看請求狀態、Token 輸送量、首 Token 延遲等資料,協助您監控服務運行情況並最佳化效能。

前提條件

  • 已建立 GPU 函數,且使用 vLLM 或 SGLang 推理架構。

  • 已開啟Log Service(日誌監控)。

使用限制

  • LLM 指標監控僅適用於 GPU 函數。

  • 日誌監控的配置方式需選擇自定义配置,自動設定模式下無法開啟 LLM 指標。

  • SGLang 需在啟動命令中顯式添加--enable-metrics參數;vLLM 預設開啟指標能力。

開啟 LLM 指標

建立函數時開啟

建立函數時,可按以下方式開啟 LLM 指標監控:

  1. 登入Function Compute控制台,在頁面頂部選擇地域

  2. 在左側菜單選擇函数管理 > 函数,在右側單擊创建函数

  3. 在開啟的选择最适合你的函数类型頁面,選擇GPU 函数,單擊创建{title}

  4. 创建{title}頁面,找到高级配置下的日志监控、链路追踪部分,將配置方式選擇為自定义配置,將LLM 指标選擇為開啟

  5. 其他配置與建立 GPU 函數中的說明相同,按需配置後單擊创建

說明

指標需在執行個體啟動運行後才開始採集;若使用 SGLang,需在啟動命令中添加--enable-metrics

完成上述配置後,函數的 LLM 指標監控即已開啟。

已有函數開啟

在已有函數的情境,可以通過以下方式開啟 LLM 指標配置:

  1. 在函數配置頁面,找到高级配置部分,單擊右上方编辑,開啟進階配置編輯頁面。

  2. 日志地區,將LLM 指标選擇為開啟,單擊部署

  3. 等執行個體輪轉完畢、新執行個體建立出來之後,即可在函數的监控指标頁面看到 LLM 指標。

說明

由於推理架構實現上的差異,vLLM 預設開啟 LLM 指標能力,SGLang 需要通過配置啟動參數--enable-metrics顯式開啟。

查看 LLM 指標

  1. 登入Function Compute控制台,在頁面頂部選擇地域

  2. 在左側導覽列選擇函数管理 > 函数,單擊目標函數名稱。

  3. 在函數詳情頁,單擊监控指标頁簽。

  4. 單擊LLM 指标子頁簽,查看各項指標資料。圖表支援懸停查看詳細數值。

說明

如果 LLM 指標未開啟,頁面會顯示提示資訊並提供快捷連結引導您到配置頁面開啟。

指標說明

vLLM 指標

vLLM 支援如下指標:

指標名稱

說明

Requests Status

請求狀態(Running 運行中、Waiting 等待中、Swapped 已換出)

Token Throughput (tokens/sec)

Token 輸送量(tokens/秒)

Request Completion Status

請求完成狀態

Time to First Token (seconds)

首 Token 延遲(秒),從請求開始到首個 Token 輸出的耗時

E2E Request Latency (seconds)

端到端請求延遲(秒)

Queue Time (seconds)

隊列時間(秒)

Inference Time (seconds)

推理時間(秒)

Prefill Time (seconds)

預填充時間(秒)

Decode Time (seconds)

解碼時間(秒)

Processed Prefill Tokens

已處理的預填充 Token 數

Processed Generation Tokens

已處理的產生 Token 數

Request Parameters

請求參數

SGLang 指標

SGLang 支援如下指標:

指標名稱

說明

Requests Num

請求數量

Token Throughput (tokens/sec)

Token 輸送量(tokens/秒)

Time to First Token (seconds)

首 Token 延遲(秒),從請求開始到首個 Token 輸出的耗時

E2E Request Latency

端到端請求延遲

Cache Hit Rate (%)

KV Cache 命中率(%)

Used Tokens Num

已使用 Token 數

Token Usage (%)

Token 使用率(%)

部分指標支援分位統計:

例如,vLLM 的 Time to First Token (seconds)、E2E Request Latency (seconds)、Queue Time (seconds)、Inference Time (seconds)、Prefill Time (seconds)、Decode Time (seconds)、Processed Prefill Tokens、Processed Generation Tokens 等指標,以及 SGLang 的 Time to First Token (seconds)、E2E Request Latency 等指標。