CloudMonitor2.0支援對大模型的輸入輸出、Agent的tool調用等常值內容進行評估,即通過系統化的方法,從多維角度對大模型的輸出、行為和效果進行動態監測和分析。您可以建立評估任務,查看評估工作清單,查看評估結果,評估結果包含評分明細、輸入語義分析、主題分布分析、評分大盤。
評估採用LLM作為評估器,選擇不同的任務,由大模型給出結論。
評估任務說明
評估任務按照結果形式分為兩種:
結果以評分表示,附加一個評分解釋。
結果為語義評估,從原始內容富化出主題、總結等語義資訊。
評估任務按照任務情境分為以下幾種:
通用情境評估
語義評估
Rag評估
Agent評估
工具使用評估
一、通用情境評估
0分表示需要關注,1分表示不需要關注,介於0-1分之間表示部分需要關注。
序號 | 評估任務 | 0分 | 1分 |
1 | 準確度 | 表示完全不準確 | 表示完全準確 |
2 | 計算機正確性 | 表示完全不正確 | 表示完全正確 |
3 | 簡潔性 | 表示完全不簡潔 | 表示完全簡潔 |
4 | 包含代碼 | 表示包含代碼 | 表示不包含代碼 |
5 | 包含個人識別資訊 | 表示包含個人識別資訊 | 表示不包含個人識別資訊 |
6 | 上下文相關性 | 表示完全不相關 | 表示完全相關 |
7 | 禁忌詞 | 表示包含禁忌詞 | 表示不包含禁忌詞 |
8 | 幻覺 | 表示存在幻覺 | 表示完全沒有幻覺 |
9 | 仇恨言論 | 表示包含仇恨言論 | 表示不包含仇恨言論 |
10 | 有用性 | 表示完全無用 | 表示非常有用 |
11 | 語言偵測器 | 表示無法檢測語言 | 表示準確檢測語言 |
12 | 開源 | 表示開源 | 表示非開源 |
13 | 問題與Python相關 | 表示與Python相關 | 表示與Python無關 |
16 | 毒性 | 表示有毒性 | 表示無毒性 |
二、語義評估
語義評估是對資料進行語義理解和處理,包括以下功能。
實體資訊抽取(NER)
從文本中抽取出原始的實體資訊,包括人名、地名、組織名、公司名、時間表達、貨幣金額、百分比表達、法律檔案、省/地區/政治實體、自然現象、藝術作品、事件、語言、標題、圖片和連結等。
格式資訊提取
提取 Markdown 或其他文字格式設定中的標題、列表、強調字型(粗體/斜體)、連結名稱和 URL、圖片地址、代碼塊、表格等內容。
對錶格進行特殊處理,將每個表格轉換為 JSON 格式,其中每一列對應一個 key 和 value。
重點詞彙抽取
從長文本中抽取出代表語義的核心詞彙,用於描述文本的主要含義。
數值資訊抽取
提取文本中出現的數值及其相關資訊,如溫度、價格等。
抽象資訊抽取
使用者意圖識別:識別使用者意圖,如查詢檢索、文本潤色、決策判定、操作指導等。
文本摘要 :用幾句話描述常值內容,每句話描述一個話題。
情緒分類:判斷文本情緒為正面、負面或中性。
主題分類 :對文本涉及的主題進行分類,如體育、政治、科技等。
角色分類:識別文本中涉及的角色,如系統、使用者、醫生等。
語言分類:識別文本使用的語言,如中文、英文等。
產生相關問題
針對給定文本,從不同角度提出若干個可以由常值內容回答的問題。
三、Rag評估
序號 | 評估任務 | 0分 | 1分 |
1 | Rag召回語料和問題的相關性 | 完全不相關 | 完全相關 |
2 | Rag召回語料和答案的相關性 | 完全不相關 | 完全相關 |
3 | Rag語料是否存在重複 | 完全重複 | 完全不重複 |
4 | Rag語料的多樣性 | 多樣性最差 | 多樣性最好 |
四、Agent評估
序號 | 評估任務 | 0分 | 1分 |
1 | Agent指令是否清晰 | 不清晰 | 清晰 |
2 | Agent規劃是否有錯誤 | 存在錯誤 | 正確 |
3 | Agent任務是否複雜 | 複雜 | 不複雜 |
4 | Agent執行路徑是否存在錯誤 | 有錯誤 | 無錯誤 |
5 | Agent是否最終達到了目標 | 未達到目標 | 達到了目標 |
6 | Agent執行路徑是否簡潔 | 不簡潔 | 簡潔 |
五、工具使用評估
序號 | 評估任務 | 0分 | 1分 |
1 | 規劃是否調用了工具 | 否 | 是 |
2 | 遇到錯誤參數時,是否修正了錯誤的參數 | 未修正錯誤 | 修正了錯誤 |
3 | 工具調用的正確性 | 錯誤 | 正確 |
4 | 工具參數是否有錯誤 | 有錯誤 | 無錯誤 |
5 | 工具調用效率 | 效率較低 | 效率較高 |
6 | 工具是否合適 | 不合適 | 合適 |