在應用流正式部署上線前,評估應用流在自身業務情境上的效果至關重要。LangStudio提供了一站式應用流評測能力,該能力基於一種新類型應用流:評測流(Evaluation Flow),能從指定維度(評測模板)對應用流評分。
簡介
LangStudio提供了一站式應用流評測能力。您只需要完成評測資料集、應用流輸入映射等配置,並按需選擇評測模板,即可提交應用流評測任務。整個評測流程包括:使用應用流批量處理評測資料集中的每一行,得到相應的輸出。然後結合評測資料集中的輔助欄位,評價每條輸出的優劣。最後匯總得分以展示應用流在指定資料集上的精度。

準備工作
已建立應用流並完成調試。操作詳情,請參見應用流開發。
將已準備好的評測資料集上傳至OSS,檔案格式為JSONL,樣本內容如下:
{"history":[],"query": "描述華山的險峻威嚴", "reference": "華嶽獨秀,挺拔雲霄; \n峭壁削天,巉岩峻俏。 \n蒼松翠竹,鬥壁爭嬌; \n猿啼鷹飛,霜劍光照。 \n\n危峰如剪,嵯峨劍指; \n徑細坡陡,無路藤繞。 \n風腥霧織,雲出岫交; \n仙境幽深,天梯難繞。 \n\n岩稜交錯,龍脈翻湧; \n險途更引,淩霄曲折。 \n寂寞松梢,鷹擊長空; \n華山之巔,雄姿英發。", "contexts": ["華山是五嶽之一", "華山以其險峻聞名"]} {"history":[],"query": "可以列出5樣稀有金屬嗎?請按全球需求來排名", "reference": "稀有金屬指的是地殼中含量較少、分布不均或開採困難的金屬元素,它們在高科技領域和新興工業中扮演著非常重要的角色。全球需求的排序可能因時間和技術進步而變化,但以下是通常被廣泛需求的一些稀有金屬(不一定按絕對的需求量排名,因為這在不同時間點可能不同):\n\n1. **鈷(Cobalt, Co)** - 鈷是鋰離子電池的關鍵成分之一,尤其是在電動汽車和攜帶型電子產品中。此外,它也被應用於耐熱合金、硬質合金以及催化劑的製造。\n\n2. **釹(Neodymium, Nd)** - 釹是一種稀土金屬,主要用於強磁體的生產,比如高效能的永磁體,這些永磁體廣泛用於電腦硬碟、風力渦輪機和電動汽車的驅動電機中。\n\n3. **鋰(Lithium, Li)** - 鋰主要用於鋰電池的製造,隨著電動車和攜帶型電子裝置的需求增加,鋰的需求量迅速上升。\n\n4. **銀(Silver, Ag)** - 雖然銀不像上述金屬那樣稀有,但其在工業中的需求量巨大,主要用於電子產品、太陽能面板、珠寶和貨幣製造等領域。\n\n5. **釕(Ruthenium, Ru)** - 釕是一種稀有貴金屬,被廣泛使用在硬碟的資料儲存及大容量伺服器中,同時也用在催化劑和電化學電池中。\n\n這些金屬的需求量受到了全球經濟、科技發展和政策支援等多方面因素的影響。而且隨著時間的推移和市場的變化,其他稀有金屬如鉭、銦、錸以及其他的稀土金屬,也可能出現在最受需求的稀有金屬列表中。", "contexts": ["稀有金屬是指地殼中含量較低、開採和提取較為複雜的金屬", "鋰 (Li):被用於電池製造", "鈷 (Co):用於高效能合金和電池製造"]}建立評測所需的LLM串連和Embedding串連。操作詳情,請參見串連配置。
註:部分評測模板需要依賴球證模型或Embedding模型,因此需要配置相關的LLM串連和Embedding串連。
計費說明
應用流評測功能會使用OSS儲存評測資料集,並通過PAI-DLC執行離線評測任務,因此會產生相應的資源使用費用。詳情請參見OSS計費概述和分布式訓練(DLC)計費說明。
建立應用流評測任務
在應用流編排頁面完成應用流調試後,單擊右上方評測,建立應用流評測任務。

關鍵參數說明:
參數 | 說明 |
評測資料集 | |
OSS檔案 | 從OSS上選擇一個JSONL格式的評測資料集檔案。該資料集應該要包含“問題”以及評測所需的其他欄位,其中“問題”欄位作為應用流的輸入,其他必要欄位用於計算指標得分,詳情請參見附錄:預置評測模板說明中關於“輸入欄位”的介紹。 |
應用流輸入映射 | |
chat_history/question | 選擇應用流程執行的輸入欄位。 註:在應用流評測前需要先完成應用流的推理,然後基於推理結果運行後續的評測任務,因此需要先選擇應用流程執行需要的輸入欄位。 |
評測配置 | |
預置模板評測 | 系統預置了多種評測模板,您可根據實際需求進行選擇。當選擇多個模板時,評測結果會彙總展示在評測任務詳情頁。本文以回答相關性模板舉例,在選擇該模板時需要完成以下配置:
關鍵參數說明:
更多模板詳情,請參見附錄:預置評測模板說明。 |
資源配置:此處資源僅用於評測任務的調度,建議根據任務的複雜程度選擇合適的CPU資源。 | |
查看評測結果
提交評測任務後,會跳轉到任務概覽頁。每個評測運行包含了1個批量運行任務+N個評測任務(N的數量同選擇的模板數量)。批量運行任務通過應用流批量處理資料集的每一行,產生輸出結果。評測任務使用評測資料集中的輔助欄位,計算批量運行任務中每條輸出的得分。在頁面下方您可以查看每個子任務的詳細資料,待運行結束後,您可以查看子任務的鏈路、指標和輸出詳情。

在指標頁可以查看全部評測指標結果。其中,指標名請參見附錄:預置評測模板說明。

附錄:預置評測模板說明
LangStudio內建了多種評測模板,可從多角度根據指標得分(指標值)評估應用流的效能:
模板名稱 | 描述 | 指標名 | 需要模型服務類型 | 輸入欄位 |
回答完全一致率 | 評估應用流輸出(response)與參考答案(reference)是否完全一致。評估得分介於0~1之間,其中0表示應用流輸出與參考答案不一致,1表示完全一致。 | exact_match_score | 不需要 |
|
回答相關性 | 評估應用流輸出與輸入的相關性。該評估方法依賴一個LLM模型,LLM根據輸入(query)和應用流回答(response)給出一個評分。得分介於0~1之間,其中0表示輸出與輸入完全無關,1表示完全相關。 | answer_relevancy | LLM |
|
回答正確性 | 評估應用流的輸出是否正確。該評估方法依賴於一個LLM模型,該模型根據問題(query)和應用流回答(response)給出一個評分。得分介於1~5之間,其中1為最差,5為最好。 | answer_correctness | LLM |
|
BLEU得分 | 評估應用流輸出與參考答案的相關性。該評估方法使用BLEU Score作為評估指標,計算參考答案(reference)和應用流輸出(response)的相關性得分。得分介於0~1之間,其中0表示應用流輸出與參考答案完全無關,1表示完全相關。 | bleu-1/bleu-2/bleu-3/bleu-4 | 不需要 |
|
ROUGE得分 | 評估應用流輸出(response)與參考答案(reference)的相關性。該評估方法使用ROUGE Score作為評估指標,計算參考答案(reference)和應用流輸出(response)的相關性得分。評估得分介於0~1之間,其中0表示應用流輸出與參考答案完全無關,1表示完全相關。 | rouge-1-p/rouge-1-r/rouge-1-f/rouge-l-p/rouge-l-r/rouge-l-f | 不需要 |
|
檢索相關性 | 評估應用流檢索出的上下文與輸入的相關性。該評估方法依賴一個LLM模型,LLM根據輸入(query)和上下文(context)給出一個評估分數。評估得分介於0~1之間,其中0表示檢索出的上下文與輸入完全無關,1表示完全相關。 | context_relevancy | LLM |
|
上下文遵從度 | 評估應用流的回答是否來自指定上下文。該評估方法依賴一個LLM模型,該模型會根據回答(response)和上下文(contexts)給出一個評分。得分為0~1之間,其中0表示完全虛構,1表示輸出完全符合上下文。 | answer_faithfulness | LLM |
|
Embedding相似性 | 評估應用流輸出(response)和參考答案(reference)的embedding相似性。該評估方法依賴一個Embedding模型,將參考答案和應用流輸出轉為embedding向量,並計算餘弦相似性。評估得分介於0~1之間,越大越相似。 | embedding_similarity | Embedding |
|
