大模型評估的任務情境與評估維度-CloudMonitor-阿里雲

CloudMonitor2.0支援對大模型的輸入輸出、Agent的tool調用等常值內容進行評估，即通過系統化的方法，從多維角度對大模型的輸出、行為和效果進行動態監測和分析。您可以建立評估任務，查看評估工作清單，查看評估結果，評估結果包含評分明細、輸入語義分析、主題分布分析、評分大盤。

評估採用LLM作為評估器，選擇不同的任務，由大模型給出結論。

評估任務說明

0分表示需要關注，1分表示不需要關注，介於0-1分之間表示部分需要關注。

語義評估是對資料進行語義理解和處理，包括以下功能。

實體資訊抽取（NER）
從文本中抽取出原始的實體資訊，包括人名、地名、組織名、公司名、時間表達、貨幣金額、百分比表達、法律檔案、省/地區/政治實體、自然現象、藝術作品、事件、語言、標題、圖片和連結等。
格式資訊提取
提取 Markdown 或其他文字格式設定中的標題、列表、強調字型（粗體/斜體）、連結名稱和 URL、圖片地址、代碼塊、表格等內容。
對錶格進行特殊處理，將每個表格轉換為 JSON 格式，其中每一列對應一個 key 和 value。
重點詞彙抽取
從長文本中抽取出代表語義的核心詞彙，用於描述文本的主要含義。
數值資訊抽取
提取文本中出現的數值及其相關資訊，如溫度、價格等。
抽象資訊抽取
- 使用者意圖識別：識別使用者意圖，如查詢檢索、文本潤色、決策判定、操作指導等。
- 文本摘要：用幾句話描述常值內容，每句話描述一個話題。
- 情緒分類：判斷文本情緒為正面、負面或中性。
- 主題分類：對文本涉及的主題進行分類，如體育、政治、科技等。
- 角色分類：識別文本中涉及的角色，如系統、使用者、醫生等。
- 語言分類：識別文本使用的語言，如中文、英文等。
產生相關問題
針對給定文本，從不同角度提出若干個可以由常值內容回答的問題。