Function Compute支援對 GPU 函數中的 LLM 推理服務進行指標監控,可在控制台查看請求狀態、Token 輸送量、首 Token 延遲等資料,協助您監控服務運行情況並最佳化效能。
前提條件
已建立 GPU 函數,且使用 vLLM 或 SGLang 推理架構。
已開啟Log Service(日誌監控)。
使用限制
LLM 指標監控僅適用於 GPU 函數。
日誌監控的配置方式需選擇自定义配置,自動設定模式下無法開啟 LLM 指標。
SGLang 需在啟動命令中顯式添加
--enable-metrics參數;vLLM 預設開啟指標能力。
開啟 LLM 指標
建立函數時開啟
建立函數時,可按以下方式開啟 LLM 指標監控:
登入Function Compute控制台,在頁面頂部選擇地域。
在左側菜單選擇函数管理 > 函数,在右側單擊创建函数。
在開啟的选择最适合你的函数类型頁面,選擇GPU 函数,單擊创建{title}。
在创建{title}頁面,找到高级配置下的日志监控、链路追踪部分,將配置方式選擇為自定义配置,將LLM 指标選擇為開啟。
其他配置與建立 GPU 函數中的說明相同,按需配置後單擊创建。
指標需在執行個體啟動運行後才開始採集;若使用 SGLang,需在啟動命令中添加--enable-metrics。
完成上述配置後,函數的 LLM 指標監控即已開啟。
已有函數開啟
在已有函數的情境,可以通過以下方式開啟 LLM 指標配置:
在函數配置頁面,找到高级配置部分,單擊右上方编辑,開啟進階配置編輯頁面。
在日志地區,將LLM 指标選擇為開啟,單擊部署。
等執行個體輪轉完畢、新執行個體建立出來之後,即可在函數的监控指标頁面看到 LLM 指標。
由於推理架構實現上的差異,vLLM 預設開啟 LLM 指標能力,SGLang 需要通過配置啟動參數--enable-metrics顯式開啟。
查看 LLM 指標
登入Function Compute控制台,在頁面頂部選擇地域。
在左側導覽列選擇函数管理 > 函数,單擊目標函數名稱。
在函數詳情頁,單擊监控指标頁簽。
單擊LLM 指标子頁簽,查看各項指標資料。圖表支援懸停查看詳細數值。
如果 LLM 指標未開啟,頁面會顯示提示資訊並提供快捷連結引導您到配置頁面開啟。
指標說明
vLLM 指標
vLLM 支援如下指標:
指標名稱 | 說明 |
Requests Status | 請求狀態(Running 運行中、Waiting 等待中、Swapped 已換出) |
Token Throughput (tokens/sec) | Token 輸送量(tokens/秒) |
Request Completion Status | 請求完成狀態 |
Time to First Token (seconds) | 首 Token 延遲(秒),從請求開始到首個 Token 輸出的耗時 |
E2E Request Latency (seconds) | 端到端請求延遲(秒) |
Queue Time (seconds) | 隊列時間(秒) |
Inference Time (seconds) | 推理時間(秒) |
Prefill Time (seconds) | 預填充時間(秒) |
Decode Time (seconds) | 解碼時間(秒) |
Processed Prefill Tokens | 已處理的預填充 Token 數 |
Processed Generation Tokens | 已處理的產生 Token 數 |
Request Parameters | 請求參數 |
SGLang 指標
SGLang 支援如下指標:
指標名稱 | 說明 |
Requests Num | 請求數量 |
Token Throughput (tokens/sec) | Token 輸送量(tokens/秒) |
Time to First Token (seconds) | 首 Token 延遲(秒),從請求開始到首個 Token 輸出的耗時 |
E2E Request Latency | 端到端請求延遲 |
Cache Hit Rate (%) | KV Cache 命中率(%) |
Used Tokens Num | 已使用 Token 數 |
Token Usage (%) | Token 使用率(%) |
部分指標支援分位統計:
例如,vLLM 的 Time to First Token (seconds)、E2E Request Latency (seconds)、Queue Time (seconds)、Inference Time (seconds)、Prefill Time (seconds)、Decode Time (seconds)、Processed Prefill Tokens、Processed Generation Tokens 等指標,以及 SGLang 的 Time to First Token (seconds)、E2E Request Latency 等指標。