模型觀測功能可用於:
查看調用記錄
指標監控與警示,如Token延時、調用時間長度、RPM(每分鐘調用次數)、TPM(每分鐘消耗Token數)和失敗率
統計Token消耗
支援的模型
支援模型列表中的所有模型。
監控模型運行
開通模型調用服務後,阿里雲百鍊會自動在模型觀測看板中添加以下4類監控指標:
安全:識別對話中的違規內容,例如
Alibaba Content Security Service錯誤次數。成本:評估模型的成本效益,例如
平均單次請求調用量。效能:觀察模型的效能變化,例如
調用時間長度、首Token延時。錯誤:判斷模型的穩定性,例如
失敗次數、失敗率。
您可基於上述指標建立警示,以便及時發現和處理異常。
步驟一:開通模型調用服務
步驟二:查看監控指標
當模型出現在列表中後,點擊其右側操作列的監控,查看調用統計(如調用次數、失敗次數等)明細。支援按API-KEY、推理類型,以及時間範圍進行篩選。
限流錯誤次數:指因429狀態代碼導致的調用失敗。
Alibaba Content Security Service錯誤次數:指輸入或輸出包含疑似敏感或高風險內容(例如涉黃、涉政和廣告等)被Alibaba Content Security Service服務攔截。
在效能指標頁簽,可查看RPM、TPM、調用時間長度以及首Token延時等指標。
查看 Token 消耗
在實際使用中,調整模型的參數、系統提示詞等操作均會改變模型的Token消耗。為統計和精細化管理成本,模型觀測提供成本監控相關功能:
匯總:按業務空間維度匯總模型的歷史Token消耗,並可按時間範圍和API Key進一步篩選。
警示:設定Token消耗閾值,當指定模型出現異常消耗時,系統立即警示。
步驟一:開通模型調用服務
確保已開通模型調用服務。
步驟二:查看 Token 消耗或建立警示
建立主動警示
模型的靜默失敗(如逾時、Token消耗突增),傳統應用日誌難以發現。模型觀測支援對監控指標(如成本、失敗率、響應延遲)設定警示。一旦指標出現異常,系統立即警示。
步驟一:開啟進階監控
確保已開通模型調用服務。
使用主帳號(或擁有足夠許可權的子帳號)登入,在目標業務空間的模型觀測(新加坡或北京)頁面,點擊右上方的模型觀測配置。
在進階監控地區,手動開啟效能和用量指標監控。
步驟二:建立警示規則
接入 Grafana 與自建應用
模型觀測的監控指標資料存放區在您的私人Prometheus執行個體中,並支援標準的Prometheus HTTP API,可用於接入 Grafana 或您的自建應用進行可視化分析。
步驟一:擷取資料來源HTTP API地址
步驟二:接入 Grafana 或自建應用
接入自建應用
通過Prometheus HTTP API擷取監控資料的樣本如下。完整 API 用法,請參考Prometheus HTTP API文檔。
樣本1:查詢阿里雲帳號下全部業務空間在指定時間範圍內(2025年11月20日全天,UTC時間)所有模型的Token消耗(query=
model_usage),步長step=60s。樣本
參數說明
GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:
query對應的值可替換為下方監控指標列表中的任意指標名稱。HTTP API:
{HTTP API}需替換為前面步驟一擷取的HTTP API地址。Authorization:需將阿里雲帳號的
AccessKey:AccessKeySecret拼接後進行Base64編碼,並以Basic 編碼後字串的形式提供。樣本值:Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
請注意:AccessKey及AccessKey Secret與前面步驟一的Prometheus執行個體必須歸屬同一阿里雲帳號。
樣本2:在樣本1基礎上增加篩選,僅擷取指定模型(model=
qwen-plus)在指定業務空間(workspace_id=llm-nymssti2mzww****)內的Token消耗。樣本
說明
GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s Accept: application/json Content-Type: application/json Authorization: Basic base64Encode(AccessKey:AccessKeySecret)query:通過
{}包裹多個過濾條件,條件之間以英文逗號分隔,例如:{workspace_id="值1",model="值2"}。支援的過濾條件(LabelKey)清單如下。
接入 Grafana
在 Grafana(自建或阿里雲 Grafana 服務)中添加模型觀測資料來源。此處以Grafana 10.x(英文版)為例。其他版本的操作類似,詳情請參考Grafana官方文檔。
添加資料來源:
使用管理員帳號登入Grafana。點擊頁面左上方的
表徵圖,選擇。點擊+ Add new data source,資料來源類型選擇Prometheus。在Settings頁簽配置資料來源資訊:
Name:輸入自訂的名稱。
Prometheus server URL:輸入前面步驟一擷取的HTTP API地址。
Auth:開啟Basic auth,並設定User(阿里雲帳號的AccessKey)及Password(阿里雲帳號的AccessKey Secret)。
AccessKey及AccessKeySecret與前面步驟一的Prometheus執行個體必須歸屬同一阿里雲帳號。

點擊頁簽底部的Save & Test。
指標查詢:
點擊Grafana頁面左上方的
表徵圖,在左側導覽列中點擊Dashboards。點擊Dashboards頁面右側的建立一個新的儀錶盤。
點擊+ Add visualization,並選擇您剛建立的資料來源。
在Edit Panel頁面點擊Query頁簽,在A地區的Label filters欄位中選擇_name_及指標名稱。以查詢模型Token消耗
model_usage為例:樣本
說明

圖中
_name_對應的值(model_usage)可替換為下方監控指標列表中的任意指標名稱。增加以下Label filters進一步篩選:
點擊Run queries進行查詢。
如果圖表中成功渲染出資料,則說明配置成功。否則請檢查:1)填寫的HTTP API地址或AccessKey及AccessKeySecret是否正確;2)前面步驟一的Prometheus執行個體中是否有監控資料。
監控模式對比模型觀測提供兩種監控模式:普通監控和進階監控。 普通監控:作為基礎服務提供,隨模型調用服務開通自動開啟,不支援關閉。 進階監控:需主帳號(或擁有足夠許可權的子帳號)在目標業務空間的模型觀測(新加坡或北京)介面手動開啟,支援關閉。僅記錄開啟進階監控後的調用資料。
| ||||||||||||||||||||||||||||
配額與限制
資料保留周期:普通和進階監控的資料預設均保留30天。如需查詢更早的用量資訊,請通過費用與成本頁面查詢。
警示模板限制:每個業務空間最多可建立100個警示模板。
API限制:模型觀測的監控指標資料請通過Prometheus HTTP API查詢。
替代方案:如需通過API擷取單次調用Token消耗,可在每次調用模型時從響應中的
usage欄位提取當前調用資料。該欄位結構樣本如下(更多說明請參見通義千問API參考):{ "prompt_tokens": 3019, "completion_tokens": 104, "total_tokens": 3123, "prompt_tokens_details": { "cached_tokens": 2048 } }
計費說明
普通監控:免費。
進階監控:開啟後,分鐘級的監控資料將寫入CloudMonitorCMS服務併產生費用。具體計費方式參見CloudMonitorCMS計費概述。
常見問題
為什麼調用了模型,但在模型觀測中查不到調用次數和消耗Token數?
按以下步驟排查:
資料延遲:確認是否已等待足夠的資料同步時間。普通監控延遲為小時級,進階監控為分鐘級。
業務空間:如果當前處於某個子業務空間,則只能看到該空間內的資料。切換到預設業務空間可查看所有資料。
調用大模型時出現逾時,可能是什麼原因?
常見原因:
輸出內容過長:模型產生內容過多導致整體耗時超過用戶端等待上限。建議改用流式輸出方式,以更快獲得首個Token。
網路問題:檢查用戶端與阿里雲服務之間的網路連接是否穩定。
使用子帳號開通進階監控,應如何配置許可權?
操作步驟:
為子帳號配置
AliyunBailianFullAccess全域管理(阿里雲百鍊)許可權。為子帳號配置
模型觀測-操作(或管理員)頁面許可權,使其能在模型觀測頁面執行寫入類操作。建立並授予子帳號建立服務關聯角色系統策略。
登入RAM控制台,在左側導覽列,選擇,然後點擊頁面上的建立權限原則。
點擊指令碼編輯,將以下內容粘貼至策略輸入框後,點擊確定。
{ "Version": "1", "Statement": [ { "Action": "ram:CreateServiceLinkedRole", "Resource": "*", "Effect": "Allow" } ] }輸入權限原則名稱
CreateServiceLinkedRole後,點擊確定。在左側導覽列,選擇。從頁面列表中找到待授權的子帳號,然後點擊子帳號操作列的添加許可權。
從權限原則列表中,選擇剛建立的權限原則(CreateServiceLinkedRole),然後點擊確認新增授權。至此,子帳號擁有了建立服務關聯角色的許可權。
附錄
名詞解釋
名詞 | 解釋 |
即時推理 | 指對模型的所有直接和間接調用,主要涵蓋以下情境:
|
批量推理 | 對於無需即時響應的情境,通過OpenAI相容-Batch介面以離線方式進行的大規模資料處理。 |


