全部產品
Search
文件中心

Cloud Monitor:自訂評估任務

更新時間:Jan 30, 2026

當系統預置的評估器(如相關性、安全性、重複性等)無法完全滿足您的特定業務情境時,您可以建立自訂評估器。通過自訂評估 Prompt(提示詞),驅動大語言模型(LLM)作為裁判,按照您定義的維度和標準對 AI 應用的輸出進行量化評分。

前提條件

已建立 AI 應用並接入可觀測資料。

操作步驟

步驟一:進入建立評估任務頁面

  1. 登入CloudMonitor 2.0 控制台,然後選擇目標工作空間。

  2. 在左側導覽列的所有功能中,選擇 AI 應用可觀測評估

  3. 選擇評估,在評估列表頁面,單擊建立評估任務

步驟二:配置基礎資訊

基礎配置地區,完成以下配置:

參數

說明

任務名稱

輸入評估任務的名稱。

資料來源

選擇評估資料的來源類型,當前支援鏈路

AI應用

從下拉式清單中選擇要評估的 AI 應用。

時間範圍

選擇評估資料的時間範圍。

步驟三:建立自訂評估器

  1. 選擇評估器地區,展開 LLM as Judge 標籤頁。

  2. 單擊 建立自訂評估器 卡片,開啟配置視窗。

  3. 在彈出的配置視窗中,完成以下配置:

    參數

    是否必填

    說明

    評估器名稱

    為自訂評估器命名,便於在評估任務中識別。例如:專業術語準確性評估

    指標名稱

    定義評估結果在報表中顯示的指標 ID。建議使用英文字元或底線,例如:pro_term_accuracy

    評估 Prompt

    編寫裁判提示詞,這是自訂評估器的核心配置。建議包含評估維度、打分標準和輸出要求。

    • 評估維度:明確告訴模型要檢查什麼。

    • 打分標準:定義評分區間(如 0.0 到 1.0)及每個分值代表的具體含義。

    • 輸出要求:要求模型輸出 JSON 格式,包含 score(分數)和 explanation(評分理由)。

    組態變數映射

    將應用運行時的變數映射到 Prompt 中的預留位置,使評估器能夠擷取實際業務資料進行判斷。

    篩選評估資料

    使用篩選語句定義哪些資料需要進入評估流程。

    • 生效範圍:選擇評估邏輯作用的資料層級。

      • Span(預設):針對調用鏈中的單個動作節點進行評估。

      • Trace:針對整條調用鏈路進行評估。

      • Session:針對整個會話周期進行評估。

    • 篩選語句:根據服務名、屬性等標籤精準鎖定評估對象。例如:serviceName = "your-service-name"

組態變數映射

通過添加映射,將 Span 資料中的欄位對應到 Prompt 中的預留位置變數。可用的映射欄位包括:

欄位

說明

attributes.gen_ai.input.messages

輸入訊息

attributes.gen_ai.output.messages

輸出訊息

attributes.input.value

輸入值

attributes.output.value

輸出值

attributes.gen_ai.response.reasoning_content

推理內容

attributes.retrieval.query

檢索查詢

attributes.retrieval.document

檢索文檔

attributes.reranker.input_document

重排序輸入文檔

attributes.reranker.output_document

重排序輸出文檔

attributes.gen_ai.tool.call.arguments

工具調用參數

attributes.gen_ai.tool.call.result

工具調用結果

attributes.gen_ai.tool.definitions

工具定義

  1. 配置完成後,可在右側預覽測試地區查看篩選後的資料,驗證配置是否正確。

  2. 單擊 確定,完成自訂評估器的建立。

步驟四:儲存並運行評估任務

  1. 自訂評估器建立成功後,將出現在評估器列表中。

  2. 根據需要選擇其他預置評估器。

  3. 單擊 儲存並運行,啟動評估任務。

預覽測試地區說明

在配置自訂評估器時,右側的預覽測試地區提供以下功能:

功能

說明

資料條數

顯示根據篩選條件匹配到的資料總量。

資料導航

通過上一條/下一條按鈕瀏覽不同的資料記錄。

當前 span 資訊

查看當前選中資料的詳細 Span 屬性。

運行測試

填寫評估 Prompt 後,可運行測實驗證評估邏輯。

評估結果

支援以列表或 JSON 格式查看測試結果。