全部產品

Cloud Monitor：自訂評估任務

更新時間：Jan 30, 2026

當系統預置的評估器（如相關性、安全性、重複性等）無法完全滿足您的特定業務情境時，您可以建立自訂評估器。通過自訂評估 Prompt（提示詞），驅動大語言模型（LLM）作為裁判，按照您定義的維度和標準對 AI 應用的輸出進行量化評分。

前提條件

已建立 AI 應用並接入可觀測資料。

操作步驟

步驟一：進入建立評估任務頁面

登入CloudMonitor 2.0 控制台，然後選擇目標工作空間。
在左側導覽列的所有功能中，選擇 AI 應用可觀測評估。
選擇評估，在評估列表頁面，單擊建立評估任務。

步驟二：配置基礎資訊

在基礎配置地區，完成以下配置：

參數	說明
任務名稱	輸入評估任務的名稱。
資料來源	選擇評估資料的來源類型，當前支援鏈路。
AI應用	從下拉式清單中選擇要評估的 AI 應用。
時間範圍	選擇評估資料的時間範圍。

步驟三：建立自訂評估器

在選擇評估器地區，展開 LLM as Judge 標籤頁。
單擊 建立自訂評估器 卡片，開啟配置視窗。

在彈出的配置視窗中，完成以下配置：

參數	是否必填	說明
評估器名稱	是	為自訂評估器命名，便於在評估任務中識別。例如：專業術語準確性評估。
指標名稱	是	定義評估結果在報表中顯示的指標 ID。建議使用英文字元或底線，例如：pro_term_accuracy。
評估 Prompt	否	編寫裁判提示詞，這是自訂評估器的核心配置。建議包含評估維度、打分標準和輸出要求。評估維度：明確告訴模型要檢查什麼。打分標準：定義評分區間（如 0.0 到 1.0）及每個分值代表的具體含義。輸出要求：要求模型輸出 JSON 格式，包含 `score`（分數）和 `explanation`（評分理由）。
組態變數映射	否	將應用運行時的變數映射到 Prompt 中的預留位置，使評估器能夠擷取實際業務資料進行判斷。
篩選評估資料	否	使用篩選語句定義哪些資料需要進入評估流程。生效範圍：選擇評估邏輯作用的資料層級。 Span（預設）：針對調用鏈中的單個動作節點進行評估。 Trace：針對整條調用鏈路進行評估。 Session：針對整個會話周期進行評估。篩選語句：根據服務名、屬性等標籤精準鎖定評估對象。例如：`serviceName = "your-service-name"`。

組態變數映射

通過添加映射，將 Span 資料中的欄位對應到 Prompt 中的預留位置變數。可用的映射欄位包括：

欄位	說明
attributes.gen_ai.input.messages	輸入訊息
attributes.gen_ai.output.messages	輸出訊息
attributes.input.value	輸入值
attributes.output.value	輸出值
attributes.gen_ai.response.reasoning_content	推理內容
attributes.retrieval.query	檢索查詢
attributes.retrieval.document	檢索文檔
attributes.reranker.input_document	重排序輸入文檔
attributes.reranker.output_document	重排序輸出文檔
attributes.gen_ai.tool.call.arguments	工具調用參數
attributes.gen_ai.tool.call.result	工具調用結果
attributes.gen_ai.tool.definitions	工具定義

配置完成後，可在右側預覽測試地區查看篩選後的資料，驗證配置是否正確。
單擊確定，完成自訂評估器的建立。

步驟四：儲存並運行評估任務

自訂評估器建立成功後，將出現在評估器列表中。
根據需要選擇其他預置評估器。
單擊 儲存並運行，啟動評估任務。

預覽測試地區說明

在配置自訂評估器時，右側的預覽測試地區提供以下功能：

功能	說明
資料條數	顯示根據篩選條件匹配到的資料總量。
資料導航	通過上一條/下一條按鈕瀏覽不同的資料記錄。
當前 span 資訊	查看當前選中資料的詳細 Span 屬性。
運行測試	填寫評估 Prompt 後，可運行測實驗證評估邏輯。
評估結果	支援以列表或 JSON 格式查看測試結果。