當系統預置的評估器(如相關性、安全性、重複性等)無法完全滿足您的特定業務情境時,您可以建立自訂評估器。通過自訂評估 Prompt(提示詞),驅動大語言模型(LLM)作為裁判,按照您定義的維度和標準對 AI 應用的輸出進行量化評分。
前提條件
已建立 AI 應用並接入可觀測資料。
操作步驟
步驟一:進入建立評估任務頁面
登入CloudMonitor 2.0 控制台,然後選擇目標工作空間。
在左側導覽列的所有功能中,選擇 AI 應用可觀測評估。
選擇評估,在評估列表頁面,單擊建立評估任務。
步驟二:配置基礎資訊
在基礎配置地區,完成以下配置:
參數 | 說明 |
任務名稱 | 輸入評估任務的名稱。 |
資料來源 | 選擇評估資料的來源類型,當前支援鏈路。 |
AI應用 | 從下拉式清單中選擇要評估的 AI 應用。 |
時間範圍 | 選擇評估資料的時間範圍。 |
步驟三:建立自訂評估器
在選擇評估器地區,展開 LLM as Judge 標籤頁。
單擊 建立自訂評估器 卡片,開啟配置視窗。
在彈出的配置視窗中,完成以下配置:
參數
是否必填
說明
評估器名稱
是
為自訂評估器命名,便於在評估任務中識別。例如:專業術語準確性評估。
指標名稱
是
定義評估結果在報表中顯示的指標 ID。建議使用英文字元或底線,例如:pro_term_accuracy。
評估 Prompt
否
編寫裁判提示詞,這是自訂評估器的核心配置。建議包含評估維度、打分標準和輸出要求。
評估維度:明確告訴模型要檢查什麼。
打分標準:定義評分區間(如 0.0 到 1.0)及每個分值代表的具體含義。
輸出要求:要求模型輸出 JSON 格式,包含
score(分數)和explanation(評分理由)。
否
將應用運行時的變數映射到 Prompt 中的預留位置,使評估器能夠擷取實際業務資料進行判斷。
篩選評估資料
否
使用篩選語句定義哪些資料需要進入評估流程。
生效範圍:選擇評估邏輯作用的資料層級。
Span(預設):針對調用鏈中的單個動作節點進行評估。
Trace:針對整條調用鏈路進行評估。
Session:針對整個會話周期進行評估。
篩選語句:根據服務名、屬性等標籤精準鎖定評估對象。例如:
serviceName = "your-service-name"。
組態變數映射
通過添加映射,將 Span 資料中的欄位對應到 Prompt 中的預留位置變數。可用的映射欄位包括:
欄位 | 說明 |
attributes.gen_ai.input.messages | 輸入訊息 |
attributes.gen_ai.output.messages | 輸出訊息 |
attributes.input.value | 輸入值 |
attributes.output.value | 輸出值 |
attributes.gen_ai.response.reasoning_content | 推理內容 |
attributes.retrieval.query | 檢索查詢 |
attributes.retrieval.document | 檢索文檔 |
attributes.reranker.input_document | 重排序輸入文檔 |
attributes.reranker.output_document | 重排序輸出文檔 |
attributes.gen_ai.tool.call.arguments | 工具調用參數 |
attributes.gen_ai.tool.call.result | 工具調用結果 |
attributes.gen_ai.tool.definitions | 工具定義 |
配置完成後,可在右側預覽測試地區查看篩選後的資料,驗證配置是否正確。
單擊 確定,完成自訂評估器的建立。
步驟四:儲存並運行評估任務
自訂評估器建立成功後,將出現在評估器列表中。
根據需要選擇其他預置評估器。
單擊 儲存並運行,啟動評估任務。
預覽測試地區說明
在配置自訂評估器時,右側的預覽測試地區提供以下功能:
功能 | 說明 |
資料條數 | 顯示根據篩選條件匹配到的資料總量。 |
資料導航 | 通過上一條/下一條按鈕瀏覽不同的資料記錄。 |
當前 span 資訊 | 查看當前選中資料的詳細 Span 屬性。 |
運行測試 | 填寫評估 Prompt 後,可運行測實驗證評估邏輯。 |
評估結果 | 支援以列表或 JSON 格式查看測試結果。 |