AI Agent運行時產生的對話日誌需要清洗、去重、評估和標註。CMS提供9個開箱即用的Pipeline預置模板,覆蓋資料治理典型情境,支援按營運目標或角色快速選擇模板,也支援在模板基礎上自由定製。
模板預覽
下表列出全部預置模板的業務情境、運算元鏈和複雜度。
序號 | 模板 | 業務情境 | 運算元鏈 | 複雜度 |
1 | 快速去除重複日誌,產出乾淨資料集 |
| 低 | |
2 | 三級去重 + 聚類採樣,構建代表性子集 |
| 中 | |
3 | 多維度自動化評分,替代人工評審 |
| 中 | |
4 | 結構化多維標註,產出訓練標籤 |
| 中 | |
5 | 種子資料多樣化合成樣本 |
| 中 | |
6 | 清洗、採樣、評估、標註、合成一站式處理 |
| 高 | |
7 | 基於Mock Data的4情境示範 |
| 低~高 | |
8 | Span-LLM粒度的LLM調用品質評估 |
| 高 | |
9 | Trace粒度的三級去重 + 聚類 + 評估 + 標註 |
| 高 |
快速選擇指南
按目標選擇
我想要... | 推薦模板 |
快速清理重複資料 | |
構建評測資料集 | |
評估Agent輸出品質 | |
給資料打標籤或分類 | |
擴充訓練資料 | |
全流程資料治理 | |
快速體驗Pipeline全部能力 | |
分析LLM調用品質 | |
Trace級資料治理全鏈路 |
按角色選擇
角色 | 推薦模板 |
資料工程師 | |
演算法工程師 | |
評測工程師 | |
資料平台團隊 | |
新使用者上手 | |
OT資料使用者 |
使用方式
直接使用
選擇合適的模板。
在模板目錄中擷取完整的JSON配置。
修改
source(資料來源)和sink(目標Dataset)配置,將資料來源名稱替換為實際的SLS Logstore或MaxCompute表名,將目標Dataset替換為已建立的Dataset名稱。調整
pipeline.nodes中的project節點,將欄位對應修改為實際日誌中的欄位名。例如將模板中的樣本欄位名a、b替換為實際的host_name、metric_name等。通過以下方式提交Pipeline建立請求:
控制台:登入AgentLoop控制台,在左側導覽列資料集-資料處理中,選擇應用模板,挑選所需模板,單擊建立任務。
在模板基礎上定製
選擇最接近的模板作為起點。
參考模板文檔中的定製建議章節。
根據需要增減節點、調整參數或替換Prompt。
多運算元自由組合編排
不同模板中的運算元可自由組合。例如:
運算元能力矩陣
下表展示各模板使用的運算元,便於對比和組合選擇。
運算元 | 資料去重清洗 | 多樣性採樣 | 對話品質評估 | 自動標註分類 | 資料增強合成 | 端到端全流程 | 模擬資料Demo | OT-LLM品質分析 | OT-Trace資料治理 |
| Y | Y | Y | Y | Y | Y | Y | - | - |
| - | - | - | - | - | Y | Y | Y | Y |
| Y | - | - | - | - | Y | Y | Y | Y |
| - | - | - | - | - | Y | Y | Y | Y |
| Y | Y | Y | Y | - | Y | Y | Y | Y |
| Y | Y | - | - | - | Y | Y | Y | - |
| - | Y | - | - | - | Y | Y | Y | - |
| - | - | - | - | - | - | - | - | Y |
| - | - | - | - | - | Y | Y | - | Y |
| - | Y | - | - | - | Y | Y | Y | Y |
| - | Y | Y | - | Y | Y | Y | Y | Y |
| - | - | Y | Y | Y | Y | Y | Y | Y |
常見問題
資料來源串連失敗
現象:Pipeline建立或運行時提示資料來源串連錯誤。
排查方向:
檢查
source中的資料來源名稱是否拼字正確,且資料來源已存在。確認CMS服務對資料來源具有讀取許可權。如使用SLS Logstore,需確保已完成RAM授權。
確認資料來源所在地區與Pipeline所在地區一致。
Pipeline執行失敗
現象:Pipeline運行狀態顯示失敗,節點報錯。
排查方向:
檢查
project節點的欄位對應是否與實際資料來源的欄位名匹配。檢查運算元參數格式是否正確,例如
where節點的filter運算式文法。如使用
llm-call或agentic-call節點,確認Prompt中的{{列名}}預留位置與fields參數中聲明的列名一致。