全部產品
Search
文件中心

Alibaba Cloud Model Studio:模型觀測

更新時間:Nov 26, 2025

模型觀測功能可用於:

  • 查看調用記錄

  • 指標監控與警示,如Token延時、調用時間長度、RPM(每分鐘調用次數)、TPM(每分鐘消耗Token數)和失敗率

  • 統計Token消耗

支援的模型

支援模型列表中的所有模型。

監控模型運行

開通模型調用服務後,阿里雲百鍊會自動在模型觀測看板中添加以下4類監控指標:

  • 安全:識別對話中的違規內容,例如Alibaba Content Security Service錯誤次數

  • 成本:評估模型的成本效益,例如平均單次請求調用量

  • 效能:觀察模型的效能變化,例如調用時間長度首Token延時

  • 錯誤:判斷模型的穩定性,例如失敗次數失敗率

您可基於上述指標建立警示,以便及時發現和處理異常。

步驟一:開通模型調用服務

  1. 如果阿里雲百鍊控制台頁面頂部顯示以下訊息,主帳號需要開通阿里雲百鍊的模型服務(可獲得免費調用額度)。如果未顯示該訊息,則表示已開通。

    image

  2. 開通後,系統會自動採集主帳號下所有業務空間內的模型調用資料。當有直接或間接模型調用發生時,系統會自動收集並同步相關資料至模型觀測(新加坡北京的列表中。

    列表記錄按“模型 + 業務空間”維度產生。新模型在首次資料同步完成後自動加入列表(普通監控的延遲通常為小時級,請耐心等待;如需分鐘級的資料洞察,請使用進階監控)。
    預設業務空間成員可查看所有業務空間的模型調用情況;子業務空間成員僅能查看當前空間的資料,無法切換查看其他業務空間資料。

步驟二:查看監控指標

  1. 當模型出現在列表中後,點擊其右側操作列的監控,查看調用統計(如調用次數、失敗次數等)明細。支援按API-KEY推理類型,以及時間範圍進行篩選。

  2. 效能指標頁簽,可查看RPM、TPM、調用時間長度以及首Token延時等指標。

查看 Token 消耗

在實際使用中,調整模型的參數、系統提示詞等操作均會改變模型的Token消耗。為統計和精細化管理成本,模型觀測提供成本監控相關功能:

  • 匯總:按業務空間維度匯總模型的歷史Token消耗,並可按時間範圍和API Key進一步篩選。

  • 警示:設定Token消耗閾值,當指定模型出現異常消耗時,系統立即警示。

步驟一:開通模型調用服務

確保已開通模型調用服務

步驟二:查看 Token 消耗或建立警示

  • 查看模型歷史 Token 消耗:

    • 查看最近30天的Token消耗:

      1. 當模型出現在模型觀測(新加坡北京列表中後,點擊其右側操作列的監控

      2. 在調用統計頁簽的調用量地區,可以查看Token消耗資料。

    • 查看更早的用量:在費用與成本頁面查詢。

  • 建立異常消耗警示:

建立主動警示

模型的靜默失敗(如逾時、Token消耗突增),傳統應用日誌難以發現。模型觀測支援對監控指標(如成本、失敗率、響應延遲)設定警示。一旦指標出現異常,系統立即警示。

步驟一:開啟進階監控

  1. 確保已開通模型調用服務

  2. 使用主帳號(或擁有足夠許可權的子帳號)登入,在目標業務空間的模型觀測(新加坡北京頁面,點擊右上方的模型觀測配置

  3. 在進階監控地區,手動開啟效能和用量指標監控

步驟二:建立警示規則

  1. 模型警示(新加坡北京頁面,點擊右上方的建立警示規則

  2. 在對話方塊中,選擇要監控的模型和監控模板,確認無誤後點擊建立。當指定的監控指標(如調用統計或效能指標)出現異常時,系統將通知您的團隊。

    • 通知方式:支援簡訊、電子郵件、電話、DingTalk群機器人、企業微信機器人及Webhook。

    • 警示等級:分為普通警告錯誤緊急,不支援自訂新增或修改。目前不同等級的通知方式無差異,建議在團隊內約定一致的處置標準。

接入 Grafana 與自建應用

模型觀測的監控指標資料存放區在您的私人Prometheus執行個體中,並支援標準的Prometheus HTTP API,可用於接入 Grafana 或您的自建應用進行可視化分析。

步驟一:擷取資料來源HTTP API地址

  1. 確保已開啟進階監控

  2. 模型觀測(新加坡北京頁面,點擊右上方的模型觀測配置。點擊CloudMonitorPrometheus執行個體右側的查看詳情

  3. 設定頁面,根據您的用戶端網路環境(公網或VPC訪問),複製對應的 HTTP API 地址。

    1

步驟二:接入 Grafana 或自建應用

接入自建應用

通過Prometheus HTTP API擷取監控資料的樣本如下。完整 API 用法,請參考Prometheus HTTP API文檔

  • 樣本1:查詢阿里雲帳號下全部業務空間在指定時間範圍內(2025年11月20日全天,UTC時間)所有模型的Token消耗(query=model_usage),步長step=60s

    樣本

    參數說明

    GET {HTTP API}/api/v1/query_range?query=model_usage&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query:query對應的值可替換為下方監控指標列表中的任意指標名稱。

      展開查看監控指標

      類型

      指標名稱

      描述

      調用次數

      model_call_count

      模型調用次數總和

      調用時間長度

      model_call_duration_total

      模型調用時間長度總和

      model_call_duration

      模型調用時間長度均值

      model_call_duration_p50

      模型調用時間長度p50

      model_call_duration_p99

      模型調用時間長度p99

      model_first_token_duration_total

      模型首包時間長度總和

      model_first_token_duration

      模型首包時間長度均值

      model_first_token_duration_p50

      模型首包時間長度p50

      model_first_token_duration_p99

      模型首包時間長度p99

      非首包時間長度

      model_generation_duration_per_token_total

      模型非首包時間長度總和

      model_generation_duration_per_token

      模型非首包時間長度均值

      model_generation_duration_per_token_p50

      模型非首包時間長度p50

      model_generation_duration_per_token_p99

      模型非首包時間長度p99

      用量

      model_usage

      模型用量總和

    • HTTP API:{HTTP API}需替換為前面步驟一擷取的HTTP API地址。

    • Authorization:需將阿里雲帳號的 AccessKey:AccessKeySecret 拼接後進行Base64編碼,並以 Basic 編碼後字串 的形式提供。

      樣本值:Basic TFRBSTV3OWlid0U4XXXXU0xb1dZMFVodmRsNw==
      請注意:AccessKeyAccessKey Secret與前面步驟一的Prometheus執行個體必須歸屬同一阿里雲帳號。
  • 樣本2:樣本1基礎上增加篩選,僅擷取指定模型(model=qwen-plus)在指定業務空間(workspace_id=llm-nymssti2mzww****)內的Token消耗。

    樣本

    說明

    GET {HTTP API}/api/v1/query_range?query=model_usage{workspace_id="llm-nymssti2mzww****",model="qwen-plus"}&start=2025-11-20T00:00:00Z&end=2025-11-20T23:59:59Z&step=60s
    
    Accept: application/json
    Content-Type: application/json
    Authorization: Basic base64Encode(AccessKey:AccessKeySecret)
    • query通過{} 包裹多個過濾條件,條件之間以英文逗號分隔,例如:{workspace_id="值1",model="值2"} 。支援的過濾條件(LabelKey)清單如下。

      展開查看支援的過濾條件

      LabelKey

      描述

      user_id

      阿里雲帳號ID。

      RAM使用者為UID。如何擷取

      apikey_id

      API Key ID(非API Key),可在密鑰管理國際版 | 中國大陸版頁面擷取。

      56

      說明

      apikey_id 值為 -1 表示調用源自阿里雲百鍊控制台,而非通過API。

      workspace_id

      業務空間ID。如何擷取

      model

      模型。

      protocol

      協議類型。可能取值:

      • HTTP:HTTP非流式

      • SSE:HTTP流式

      • WS:Websocket協議

      sub_protocol

      子協議。可能取值:

      • DEFAULT:同步調用

      • ASYNC:非同步呼叫

        常見於映像產生模型。文本產生映像

      status_code

      HTTP狀態代碼。

      model_call_count監控指標支援該LabelKey。

      error_code

      錯誤碼。

      model_call_count監控指標支援該LabelKey。

      usage_type

      用量類型。

      model_usage監控指標支援該LabelKey。

      可能取值:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

接入 Grafana

在 Grafana(自建或阿里雲 Grafana 服務)中添加模型觀測資料來源。此處以Grafana 10.x(英文版)為例。其他版本的操作類似,詳情請參考Grafana官方文檔

  1. 添加資料來源:

    1. 使用管理員帳號登入Grafana。點擊頁面左上方的image表徵圖,選擇Administration > Data sources。點擊+ Add new data source,資料來源類型選擇Prometheus

    2. Settings頁簽配置資料來源資訊:

      • Name:輸入自訂的名稱。

      • Prometheus server URL:輸入前面步驟一擷取的HTTP API地址。

      • Auth:開啟Basic auth,並設定User(阿里雲帳號的AccessKey)及Password(阿里雲帳號的AccessKey Secret)。

        AccessKey及AccessKeySecret與前面步驟一的Prometheus執行個體必須歸屬同一阿里雲帳號。

      image

    3. 點擊頁簽底部的Save & Test

  2. 指標查詢:

    1. 點擊Grafana頁面左上方的image表徵圖,在左側導覽列中點擊Dashboards

    2. 點擊Dashboards頁面右側的New > New dashboard建立一個新的儀錶盤。

    3. 點擊+ Add visualization,並選擇您剛建立的資料來源。

    4. Edit Panel頁面點擊Query頁簽,在A地區的Label filters欄位中選擇_name_及指標名稱。以查詢模型Token消耗model_usage為例:

      樣本

      說明

      image

      圖中_name_對應的值(model_usage)可替換為下方監控指標列表中的任意指標名稱。

      展開查看監控指標

      類型

      指標名稱

      描述

      調用次數

      model_call_count

      模型調用次數總和

      調用時間長度

      model_call_duration_total

      模型調用時間長度總和

      model_call_duration

      模型調用時間長度均值

      model_call_duration_p50

      模型調用時間長度p50

      model_call_duration_p99

      模型調用時間長度p99

      model_first_token_duration_total

      模型首包時間長度總和

      model_first_token_duration

      模型首包時間長度均值

      model_first_token_duration_p50

      模型首包時間長度p50

      model_first_token_duration_p99

      模型首包時間長度p99

      非首包時間長度

      model_generation_duration_per_token_total

      模型非首包時間長度總和

      model_generation_duration_per_token

      模型非首包時間長度均值

      model_generation_duration_per_token_p50

      模型非首包時間長度p50

      model_generation_duration_per_token_p99

      模型非首包時間長度p99

      用量

      model_usage

      模型用量總和

      增加以下Label filters進一步篩選:

      展開查看支援的過濾條件

      LabelKey

      描述

      user_id

      阿里雲帳號ID。

      RAM使用者為UID。如何擷取

      apikey_id

      API Key ID(非API Key),可在密鑰管理國際版 | 中國大陸版頁面擷取。

      56

      說明

      apikey_id 值為 -1 表示調用源自阿里雲百鍊控制台,而非通過API。

      workspace_id

      業務空間ID。如何擷取

      model

      模型。

      protocol

      協議類型。可能取值:

      • HTTP:HTTP非流式

      • SSE:HTTP流式

      • WS:Websocket協議

      sub_protocol

      子協議。可能取值:

      • DEFAULT:同步調用

      • ASYNC:非同步呼叫

        常見於映像產生模型。文本產生映像

      status_code

      HTTP狀態代碼。

      model_call_count監控指標支援該LabelKey。

      error_code

      錯誤碼。

      model_call_count監控指標支援該LabelKey。

      usage_type

      用量類型。

      model_usage監控指標支援該LabelKey。

      可能取值:

      • total_tokens

      • input_tokens

      • output_tokens

      • cache_tokens

      • image_tokens

      • audio_tokens

      • video_tokens

      • image_count

      • audio_count

      • video_count

      • duration

      • characters

      • audio_tts

      • times

    5. 點擊Run queries進行查詢。

      如果圖表中成功渲染出資料,則說明配置成功。否則請檢查:1)填寫的HTTP API地址或AccessKey及AccessKeySecret是否正確;2)前面步驟一的Prometheus執行個體中是否有監控資料。

監控模式對比

模型觀測提供兩種監控模式:普通監控進階監控

普通監控作為基礎服務提供,隨模型調用服務開通自動開啟,不支援關閉。
進階監控需主帳號(或擁有足夠許可權的子帳號)在目標業務空間的模型觀測(新加坡北京介面手動開啟,支援關閉。僅記錄開啟進階監控後的調用資料。

對比項

普通監控(預設)

進階監控(需手動開啟)

資料延時

小時級

分鐘級

查看調用統計

支援

支援

查看失敗調用(詳情)

不支援

支援

查看效能指標

支援

支援

作用範圍

主帳號下所有業務空間

僅在開啟的業務空間內生效

計費

免費

收費

配額與限制

  • 資料保留周期:普通和進階監控的資料預設均保留30天。如需查詢更早的用量資訊,請通過費用與成本頁面查詢。

  • 警示模板限制:每個業務空間最多可建立100個警示模板。

  • API限制:模型觀測的監控指標資料請通過Prometheus HTTP API查詢。

    • 替代方案:如需通過API擷取單次調用Token消耗,可在每次調用模型時從響應中的usage欄位提取當前調用資料。該欄位結構樣本如下(更多說明請參見通義千問API參考):

      {
        "prompt_tokens": 3019,
        "completion_tokens": 104,
        "total_tokens": 3123,
        "prompt_tokens_details": {
          "cached_tokens": 2048
        }
      }

計費說明

常見問題

為什麼調用了模型,但在模型觀測中查不到調用次數和消耗Token數?

按以下步驟排查:

  1. 資料延遲:確認是否已等待足夠的資料同步時間。普通監控延遲為小時級,進階監控為分鐘級。

  2. 業務空間:如果當前處於某個子業務空間,則只能看到該空間內的資料。切換到預設業務空間可查看所有資料。

調用大模型時出現逾時,可能是什麼原因?

常見原因:

  • 輸出內容過長:模型產生內容過多導致整體耗時超過用戶端等待上限。建議改用流式輸出方式,以更快獲得首個Token。

  • 網路問題:檢查用戶端與阿里雲服務之間的網路連接是否穩定。

使用子帳號開通進階監控,應如何配置許可權?

操作步驟:

  1. 為子帳號配置AliyunBailianFullAccess全域管理(阿里雲百鍊)許可權

  2. 為子帳號配置模型觀測-操作(或管理員頁面許可權,使其能在模型觀測頁面執行寫入類操作。

  3. 為子帳號配置AliyunCloudMonitorFullAccess系統策略

  4. 建立並授予子帳號建立服務關聯角色系統策略。

    1. 登入RAM控制台,在左側導覽列,選擇許可權管理 > 權限原則,然後點擊頁面上的建立權限原則

    2. 點擊指令碼編輯,將以下內容粘貼至策略輸入框後,點擊確定

      {
          "Version": "1",
          "Statement": [
              {
                  "Action": "ram:CreateServiceLinkedRole",
                  "Resource": "*",
                  "Effect": "Allow"
              }
          ]
      }
    3. 輸入權限原則名稱CreateServiceLinkedRole後,點擊確定

    4. 在左側導覽列,選擇身份管理 > 使用者。從頁面列表中找到待授權的子帳號,然後點擊子帳號操作列的添加許可權

    5. 權限原則列表中,選擇剛建立的權限原則(CreateServiceLinkedRole),然後點擊確認新增授權。至此,子帳號擁有了建立服務關聯角色的許可權。

  5. 完成以上所有許可權配置後,返回模型觀測(新加坡北京頁面,使用子帳號重試開啟進階監控

附錄

名詞解釋

名詞

解釋

即時推理

指對模型的所有直接和間接調用,主要涵蓋以下情境:

  • 通過DashScope SDK或OpenAI相容介面的API調用

  • 模型體驗

  • 阿里雲百鍊應用(智能體/工作流程/智能體編排應用,以及涉及到模型調用的節點,如大模型節點、意圖分類節點以及智能體群組節點等)的測試態和發布態

  • Assistant API調用

  • 應用調用

批量推理

對於無需即時響應的情境,通過OpenAI相容-Batch介面以離線方式進行的大規模資料處理。