模型監控功能可用於:
查看調用記錄
指標監控與警示,如Token延時、調用時間長度、RPM(每分鐘調用次數)、TPM(每分鐘消耗Token數)和失敗率
統計Token消耗
支援的模型
監控(普通監控、進階監控)與警示功能:支援模型列表中的所有模型。
日誌功能:目前支援的部分模型列表如下:
北京
qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview
qwen-max、qwen-max-0919、qwen-max-2025-01-25、qwen-max-latest
qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest
qwen-flash、qwen-flash-2025-07-28
qwen-turbo、qwen-turbo-2025-07-15、qwen-turbo-2025-04-28、qwen-turbo-latest
deepseek-v3.1、deepseek-v3.2、deepseek-v3.2-exp
qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking
qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23
新加坡
qwen3-max、qwen3-max-2025-09-23、qwen3-max-2026-01-23、qwen3-max-preview
qwen-max、qwen-max-2025-01-25、qwen-max-latest
qwen-plus、qwen-plus-2025-04-28、qwen-plus-2025-07-14、qwen-plus-2025-07-28、qwen-plus-2025-09-11、qwen-plus-2025-12-01、qwen-plus-latest
qwen-flash、qwen-flash-2025-07-28
qwen-turbo、qwen-turbo-2025-04-28、qwen-turbo-latest
qwen3-235b-a22b、qwen3-235b-a22b-instruct-2507、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b、qwen3-30b-a3b-instruct-2507、qwen3-30b-a3b-thinking-2507、qwen3-next-80b-a3b-instruct、qwen3-next-80b-a3b-thinking
qwen3-coder-480b-a35b-instruct、qwen3-coder-flash、qwen3-coder-flash-2025-07-28、qwen3-coder-plus、qwen3-coder-plus-2025-07-22、qwen3-coder-plus-2025-09-23
監控模型運行
系統會自動採集主帳號下所有業務空間內的模型調用資料。當有直接或間接模型調用發生時,系統會自動收集並同步相關資料至模型監控(新加坡)、模型監控(維吉尼亞)或模型監控(北京)列表中。
列表記錄按“模型 + 業務空間”維度產生。新模型在首次資料同步完成後自動加入列表(普通監控的延遲通常為小時級,請耐心等待;如需分鐘級的資料洞察,請使用進階監控)。
預設業務空間成員可查看所有業務空間的模型調用情況;子業務空間成員僅能查看當前空間的資料,無法切換查看其他業務空間資料。
在列表中找到目標模型後,點擊其右側操作列的監控,可查詢以下4類監控指標:
安全:識別對話中的違規內容,例如
Alibaba Content Security Service錯誤次數。成本:評估模型的成本效益,例如
平均單次請求調用量。效能:觀察模型的效能變化,例如
調用時間長度、首Token延時。錯誤:判斷模型的穩定性,例如
失敗次數、失敗率。
您可基於上述指標建立警示,以便及時發現和處理異常。
調用統計
此頁簽可查看安全、成本、錯誤相關指標(如調用次數、失敗次數等)。支援按API-KEY、推理類型,以及時間範圍進行篩選。
限流錯誤次數:指因429狀態代碼導致的調用失敗。
Alibaba Content Security Service錯誤次數:指輸入或輸出包含疑似敏感或高風險內容(例如涉黃、涉政和廣告等)被Alibaba Content Security Service服務攔截。
效能指標
此頁簽可查看RPM、TPM、調用時間長度以及首Token延時等效能相關指標。
查看 Token 消耗
在實際使用中,調整模型的參數、系統提示詞等操作均會改變模型的Token消耗。為統計和精細化管理成本,模型監控提供成本監控相關功能:
匯總:按業務空間維度匯總模型的歷史Token消耗,並可按時間範圍和API Key進一步篩選。
追蹤:記錄每一次模型調用的Token消耗。
警示:設定Token消耗閾值,當指定模型出現異常消耗時,系統立即警示。
查看模型歷史 Token 消耗
查看最近30天的Token消耗:
當模型出現在模型監控(新加坡)、模型監控(維吉尼亞)或模型監控(北京)列表中後,點擊其右側操作列的監控。
在調用統計頁簽的調用量地區,可以查看Token消耗資料。
查看更早的用量:在費用與成本頁面查詢。
查看某次調用的 Token 消耗
該功能目前僅適用於華北2(北京)地區的部分模型。
使用主帳號(或擁有足夠許可權的子帳號)登入,在目標業務空間的模型監控(北京)頁面,點擊右上方的模型觀測配置,按照指引依次開通審計日誌和推理日誌。
開通後,系統即開始記錄該業務空間內每一次模型調用的輸入與輸出。從調用發生到日誌被記錄存在分鐘級延遲,請耐心等待。
在模型監控列表中找到目標模型,點擊其右側操作列的日誌。
日誌頁簽展示該模型的即時推理調用記錄,用量欄位即為本次調用的Token消耗。
建立異常消耗警示
請參見建立主動警示。
查看歷史對話(模型日誌)
該功能目前僅適用於華北2(北京)地區的部分模型。
模型監控支援查看模型的每一次對話,包括輸入、輸出及耗時,是故障排查和內容審計的關鍵工具。
步驟一:開通日誌
使用主帳號(或擁有足夠許可權的子帳號)登入,在目標業務空間的模型監控(北京)頁面,點擊右上方的模型觀測配置,按照指引依次開通審計日誌和推理日誌。
開通後,系統即開始記錄該業務空間內每一次模型調用的輸入與輸出。從調用發生到日誌被記錄存在分鐘級延遲,請耐心等待。
如需停止記錄,只需在模型觀測配置中關閉推理日誌即可。
步驟二:查看歷史對話
在模型監控列表中找到目標模型,點擊其右側操作列的日誌。
日誌頁簽展示該模型的即時推理調用記錄,請求和響應欄位分別對應本次調用的輸入與輸出。
建立主動警示
該功能目前僅適用於新加坡和華北2(北京)地區。
模型的靜默失敗(如逾時、Token消耗突增),傳統應用日誌難以發現。模型監控支援對監控指標(如成本、失敗率、響應延遲)設定警示。一旦指標出現異常,系統立即警示。
步驟一:開啟進階監控
使用主帳號(或擁有足夠許可權的子帳號)登入,在目標業務空間的模型監控(新加坡或北京)頁面,點擊右上方的模型觀測配置。
在進階監控地區,手動開啟效能和用量指標監控。
步驟二:建立警示規則
接入 Grafana 與自建應用
模型監控的監控指標資料存放區在您的私人Prometheus執行個體中,並支援標準的Prometheus HTTP API,可用於接入 Grafana 或您的自建應用進行可視化分析。
步驟一:擷取資料來源HTTP API地址
確保已開啟進階監控。
在模型監控(新加坡)、模型監控(維吉尼亞)或模型監控(北京)頁面,點擊右上方的模型觀測配置。點擊CloudMonitorPrometheus執行個體右側的查看詳情。
在設定頁面,根據您的用戶端網路環境(公網或VPC訪問),複製對應的 HTTP API 地址。

步驟二:接入 Grafana 或自建應用
接入自建應用
通過Prometheus HTTP API擷取監控資料的樣本如下。完整 API 用法,請參考Prometheus HTTP API文檔。
樣本1:查詢阿里雲帳號下全部業務空間在指定時間範圍內(2025年11月20日全天,UTC時間)所有模型的Token消耗(query=
model_usage),步長step=60s。樣本
參數說明
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:
query對應的值可替換為下方監控指標列表中的任意指標名稱。HTTP API:
{HTTP API}需替換為前面步驟一擷取的HTTP API地址。Authorization:需將阿里雲帳號的
AccessKey:AccessKeySecret拼接後進行Base64編碼,並以Basic 編碼後字串的形式提供。樣本值:Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
請注意:AccessKey及AccessKey Secret與前面步驟一的Prometheus執行個體必須歸屬同一阿里雲帳號。
樣本2:在樣本1基礎上增加篩選,僅擷取指定模型(model=
qwen-plus)在指定業務空間(workspace_id=llm-nymssti2mzww****)內的Token消耗。樣本
說明
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:通過
{}包裹多個過濾條件,條件之間以英文逗號分隔,例如:{workspace_id="值1",model="值2"}。支援的過濾條件(LabelKey)清單如下。
接入 Grafana
在 Grafana(自建或阿里雲 Grafana 服務)中添加模型監控資料來源。此處以Grafana 10.x(英文版)為例。其他版本的操作類似,詳情請參考Grafana官方文檔。
添加資料來源:
使用管理員帳號登入Grafana。點擊頁面左上方的
表徵圖,選擇。點擊+ Add new data source,資料來源類型選擇Prometheus。在Settings頁簽配置資料來源資訊:
Name:輸入自訂的名稱。
Prometheus server URL:輸入前面步驟一擷取的HTTP API地址。
Auth:開啟Basic auth,並設定User(阿里雲帳號的AccessKey)及Password(阿里雲帳號的AccessKey Secret)。
AccessKey及AccessKeySecret與前面步驟一的Prometheus執行個體必須歸屬同一阿里雲帳號。

點擊頁簽底部的Save & Test。
指標查詢:
點擊Grafana頁面左上方的
表徵圖,在左側導覽列中點擊Dashboards。點擊Dashboards頁面右側的建立一個新的儀錶盤。
點擊+ Add visualization,並選擇您剛建立的資料來源。
在Edit Panel頁面點擊Query頁簽,在A地區的Label filters欄位中選擇_name_及指標名稱。以查詢模型Token消耗
model_usage為例:樣本
說明

圖中
_name_對應的值(model_usage)可替換為下方監控指標列表中的任意指標名稱。增加以下Label filters進一步篩選:
點擊Run queries進行查詢。
如果圖表中成功渲染出資料,則說明配置成功。否則請檢查:1)填寫的HTTP API地址或AccessKey及AccessKeySecret是否正確;2)前面步驟一的Prometheus執行個體中是否有監控資料。
監控模式對比模型監控提供兩種監控模式:普通監控和進階監控。 普通監控:作為基礎服務提供,隨阿里雲百鍊的開通自動開啟,不支援關閉。 進階監控:需主帳號(或擁有足夠許可權的子帳號)在目標業務空間的模型監控(新加坡)、模型監控(維吉尼亞)或模型監控(北京)介面手動開啟,支援關閉。僅記錄開啟進階監控後的調用資料。
| ||||||||||||||||||||||||||||
配額與限制
資料保留周期:普通和進階監控的資料預設均保留30天。如需查詢更早的用量資訊,請通過費用與成本頁面查詢。
警示模板限制:每個業務空間最多可建立100個警示模板。
API限制:模型監控的監控指標資料請通過Prometheus HTTP API查詢。
替代方案:如需通過API擷取單次調用Token消耗,可在每次調用模型時從響應中的
usage欄位提取當前調用資料。該欄位結構樣本如下(更多說明請參見通義千問API參考):{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
計費說明
普通監控:免費。
進階監控:開啟後,分鐘級的監控資料將寫入CloudMonitorCMS服務併產生費用。具體計費方式參見CloudMonitorCMS計費概述。
推理日誌:開啟後,分鐘級的日誌資料將寫入Log ServiceSLS服務併產生費用。具體計費方式參見Log ServiceSLS計費概述。
常見問題
為什麼調用了模型,但在模型觀測中查不到調用次數和消耗Token數?
按以下步驟排查:
資料延遲:確認是否已等待足夠的資料同步時間。普通監控延遲為小時級,進階監控為分鐘級。
業務空間:如果當前處於某個子業務空間,則只能看到該空間內的資料。切換到預設業務空間可查看所有資料。
調用大模型時出現逾時,可能是什麼原因?
常見原因:
輸出內容過長:模型產生內容過多導致整體耗時超過用戶端等待上限。建議改用流式輸出方式,以更快獲得首個Token。
網路問題:檢查用戶端與阿里雲服務之間的網路連接是否穩定。
使用子帳號開通進階監控,應如何配置許可權?
操作步驟:
為子帳號配置
AliyunBailianFullAccess全域管理(阿里雲百鍊)許可權。為子帳號配置
模型觀測-操作(或管理員)頁面許可權,使其能在模型監控頁面執行寫入類操作。建立並授予子帳號建立服務關聯角色系統策略。
登入RAM控制台,在左側導覽列,選擇,然後點擊頁面上的建立權限原則。
點擊指令碼編輯,將以下內容粘貼至策略輸入框後,點擊確定。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }輸入權限原則名稱
CreateServiceLinkedRole後,點擊確定。在左側導覽列,選擇。從頁面列表中找到待授權的子帳號,然後點擊子帳號操作列的添加許可權。
從權限原則列表中,選擇剛建立的權限原則(CreateServiceLinkedRole),然後點擊確認新增授權。至此,子帳號擁有了建立服務關聯角色的許可權。
完成以上所有許可權配置後,返回模型監控(新加坡)、模型監控(維吉尼亞)或模型監控(北京)頁面,使用子帳號重試開啟進階監控。
使用子帳號開通推理日誌,應如何配置許可權?
操作步驟:
為子帳號配置
AliyunBailianFullAccess全域管理(阿里雲百鍊)許可權。為子帳號配置
模型觀測-操作(或管理員)頁面許可權,使其能在模型監控頁面執行寫入類操作。建立並授予子帳號建立服務關聯角色系統策略。
登入RAM控制台,在左側導覽列,選擇,然後點擊頁面上的建立權限原則。
點擊指令碼編輯,將以下內容粘貼至策略輸入框後,點擊確定。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }輸入權限原則名稱
CreateServiceLinkedRole後,點擊確定。在左側導覽列,選擇。從頁面列表中找到待授權的子帳號,然後點擊子帳號操作列的添加許可權。
從權限原則列表中,選擇剛建立的權限原則(CreateServiceLinkedRole),然後點擊確認新增授權。至此,子帳號擁有了建立服務關聯角色的許可權。
完成以上所有許可權配置後,返回模型監控(北京)頁面,使用子帳號重試開啟推理日誌。
附錄
名詞解釋
名詞 | 解釋 |
即時推理 | 指對模型的所有直接和間接調用,主要涵蓋以下情境:
|
批量推理 | 對於無需即時響應的情境,通過OpenAI相容-Batch介面以離線方式進行的大規模資料處理。 |
