介紹如何在建立或配置 GPU 函數時開啟 LLM 指標監控，以及在函數監控頁面查看 vLLM、SGLang 等推理引擎的指標。 - Function Compute

Function Compute支援對 GPU 函數中的 LLM 推理服務進行指標監控，可在控制台查看請求狀態、Token 輸送量、首 Token 延遲等資料，協助您監控服務運行情況並最佳化效能。

前提條件

已建立 GPU 函數，且使用 vLLM 或 SGLang 推理架構。
已開啟Log Service（日誌監控）。

使用限制

LLM 指標監控僅適用於 GPU 函數。
日誌監控的配置方式需選擇自定义配置，自動設定模式下無法開啟 LLM 指標。
SGLang 需在啟動命令中顯式添加--enable-metrics參數；vLLM 預設開啟指標能力。

開啟 LLM 指標

建立函數時開啟

建立函數時，可按以下方式開啟 LLM 指標監控：

登入Function Compute控制台，在頁面頂部選擇地域。
在左側菜單選擇函数管理 > 函数，在右側單擊创建函数。
在開啟的选择最适合你的函数类型頁面，選擇GPU 函数，單擊创建{title}。
在创建{title}頁面，找到高级配置下的日志监控、链路追踪部分，將配置方式選擇為自定义配置，將LLM 指标選擇為開啟。
其他配置與建立 GPU 函數中的說明相同，按需配置後單擊创建。

說明

指標需在執行個體啟動運行後才開始採集；若使用 SGLang，需在啟動命令中添加--enable-metrics。

完成上述配置後，函數的 LLM 指標監控即已開啟。

已有函數開啟

在已有函數的情境，可以通過以下方式開啟 LLM 指標配置：

在函數配置頁面，找到高级配置部分，單擊右上方编辑，開啟進階配置編輯頁面。
在日志地區，將LLM 指标選擇為開啟，單擊部署。
等執行個體輪轉完畢、新執行個體建立出來之後，即可在函數的监控指标頁面看到 LLM 指標。

說明

由於推理架構實現上的差異，vLLM 預設開啟 LLM 指標能力，SGLang 需要通過配置啟動參數--enable-metrics顯式開啟。

查看 LLM 指標

登入Function Compute控制台，在頁面頂部選擇地域。
在左側導覽列選擇函数管理 > 函数，單擊目標函數名稱。
在函數詳情頁，單擊监控指标頁簽。
單擊LLM 指标子頁簽，查看各項指標資料。圖表支援懸停查看詳細數值。

說明

如果 LLM 指標未開啟，頁面會顯示提示資訊並提供快捷連結引導您到配置頁面開啟。

指標說明

vLLM 指標

vLLM 支援如下指標：

指標名稱	說明
Requests Status	請求狀態（Running 運行中、Waiting 等待中、Swapped 已換出）
Token Throughput (tokens/sec)	Token 輸送量（tokens/秒）
Request Completion Status	請求完成狀態
Time to First Token (seconds)	首 Token 延遲（秒），從請求開始到首個 Token 輸出的耗時
E2E Request Latency (seconds)	端到端請求延遲（秒）
Queue Time (seconds)	隊列時間（秒）
Inference Time (seconds)	推理時間（秒）
Prefill Time (seconds)	預填充時間（秒）
Decode Time (seconds)	解碼時間（秒）
Processed Prefill Tokens	已處理的預填充 Token 數
Processed Generation Tokens	已處理的產生 Token 數
Request Parameters	請求參數

SGLang 指標

SGLang 支援如下指標：

指標名稱	說明
Requests Num	請求數量
Token Throughput (tokens/sec)	Token 輸送量（tokens/秒）
Time to First Token (seconds)	首 Token 延遲（秒），從請求開始到首個 Token 輸出的耗時
E2E Request Latency	端到端請求延遲
Cache Hit Rate (%)	KV Cache 命中率（%）
Used Tokens Num	已使用 Token 數
Token Usage (%)	Token 使用率（%）

部分指標支援分位統計：

例如，vLLM 的 Time to First Token (seconds)、E2E Request Latency (seconds)、Queue Time (seconds)、Inference Time (seconds)、Prefill Time (seconds)、Decode Time (seconds)、Processed Prefill Tokens、Processed Generation Tokens 等指標，以及 SGLang 的 Time to First Token (seconds)、E2E Request Latency 等指標。