全部產品
Search
文件中心

Cloud Monitor:大模型評估

更新時間:Sep 29, 2025

CloudMonitor2.0支援對大模型的輸入輸出、Agent的tool調用等常值內容進行評估,即通過系統化的方法,從多維角度對大模型的輸出、行為和效果進行動態監測和分析。您可以建立評估任務,查看評估工作清單,查看評估結果,評估結果包含評分明細、輸入語義分析、主題分布分析、評分大盤。

評估採用LLM作為評估器,選擇不同的任務,由大模型給出結論。

評估任務說明

  • 評估任務按照結果形式分為兩種:

    • 結果以評分表示,附加一個評分解釋。

    • 結果為語義評估,從原始內容富化出主題、總結等語義資訊。

  • 評估任務按照任務情境分為以下幾種:

    • 通用情境評估

    • 語義評估

    • Rag評估

    • Agent評估

    • 工具使用評估

一、通用情境評估

0分表示需要關注,1分表示不需要關注,介於0-1分之間表示部分需要關注。

序號

評估任務

0分

1分

1

準確度

表示完全不準確

表示完全準確

2

計算機正確性

表示完全不正確

表示完全正確

3

簡潔性

表示完全不簡潔

表示完全簡潔

4

包含代碼

表示包含代碼

表示不包含代碼

5

包含個人識別資訊

表示包含個人識別資訊

表示不包含個人識別資訊

6

上下文相關性

表示完全不相關

表示完全相關

7

禁忌詞

表示包含禁忌詞

表示不包含禁忌詞

8

幻覺

表示存在幻覺

表示完全沒有幻覺

9

仇恨言論

表示包含仇恨言論

表示不包含仇恨言論

10

有用性

表示完全無用

表示非常有用

11

語言偵測器

表示無法檢測語言

表示準確檢測語言

12

開源

表示開源

表示非開源

13

問題與Python相關

表示與Python相關

表示與Python無關

16

毒性

表示有毒性

表示無毒性

二、語義評估

語義評估是對資料進行語義理解和處理,包括以下功能。

  • 實體資訊抽取(NER)

    從文本中抽取出原始的實體資訊,包括人名、地名、組織名、公司名、時間表達、貨幣金額、百分比表達、法律檔案、省/地區/政治實體、自然現象、藝術作品、事件、語言、標題、圖片和連結等。

  • 格式資訊提取

    提取 Markdown 或其他文字格式設定中的標題、列表、強調字型(粗體/斜體)、連結名稱和 URL、圖片地址、代碼塊、表格等內容。

    對錶格進行特殊處理,將每個表格轉換為 JSON 格式,其中每一列對應一個 key 和 value。

  • 重點詞彙抽取

    從長文本中抽取出代表語義的核心詞彙,用於描述文本的主要含義。

  • 數值資訊抽取

    提取文本中出現的數值及其相關資訊,如溫度、價格等。

  • 抽象資訊抽取

    • 使用者意圖識別:識別使用者意圖,如查詢檢索、文本潤色、決策判定、操作指導等。

    • 文本摘要 :用幾句話描述常值內容,每句話描述一個話題。

    • 情緒分類:判斷文本情緒為正面、負面或中性。

    • 主題分類 :對文本涉及的主題進行分類,如體育、政治、科技等。

    • 角色分類:識別文本中涉及的角色,如系統、使用者、醫生等。

    • 語言分類:識別文本使用的語言,如中文、英文等。

  • 產生相關問題

    針對給定文本,從不同角度提出若干個可以由常值內容回答的問題。

三、Rag評估

序號

評估任務

0分

1分

1

Rag召回語料和問題的相關性

完全不相關

完全相關

2

Rag召回語料和答案的相關性

完全不相關

完全相關

3

Rag語料是否存在重複

完全重複

完全不重複

4

Rag語料的多樣性

多樣性最差

多樣性最好

四、Agent評估

序號

評估任務

0分

1分

1

Agent指令是否清晰

不清晰

清晰

2

Agent規劃是否有錯誤

存在錯誤

正確

3

Agent任務是否複雜

複雜

不複雜

4

Agent執行路徑是否存在錯誤

有錯誤

無錯誤

5

Agent是否最終達到了目標

未達到目標

達到了目標

6

Agent執行路徑是否簡潔

不簡潔

簡潔

五、工具使用評估

序號

評估任務

0分

1分

1

規劃是否調用了工具

2

遇到錯誤參數時,是否修正了錯誤的參數

未修正錯誤

修正了錯誤

3

工具調用的正確性

錯誤

正確

4

工具參數是否有錯誤

有錯誤

無錯誤

5

工具調用效率

效率較低

效率較高

6

工具是否合適

不合適

合適