本文介紹如何建立並運行第一條 AgentLoop Pipeline,完成 Agent 資料的自動去重清洗。
Pipeline 處理流程
Pipeline 從 LogStore 讀取未經處理資料,經過多級自動處理(去重、採樣、AI 調用等),產出資料沉澱到資料集(Dataset)。
開始之前
已開通 AgentLoop 服務。如未開通,請聯絡您的管理員或在AgentLoop控制台申請開通。
已開通Log Service SLS,準備待處理的資料來源(Project 和 LogStore)。如未建立,請參見管理LogStore。
步驟一:選擇資料來源
登入AgentLoop控制台,在左側導覽列資料集-資料處理中,選擇任務管理,單擊建立任務。在輸入日誌庫中選擇 LogStore 作為資料輸入,填寫以下資訊:
配置項 | 說明 | 樣本值 |
Project | 資料所在的 SLS 專案。 |
|
LogStore | 儲存 Agent 未經處理資料的日誌庫。 |
|
查詢條件 | 按服務名等條件式篩選資料範圍。 |
|
如果查詢條件配置錯誤,系統將提示法錯誤。請檢查欄位名稱和查詢文法是否正確。
步驟二:配置處理運算元
本例使用資料去重清洗模板,選用 5 個運算元構成最簡處理鏈路:
序號 | 運算元類型 | 運算元名稱 | 作用 |
1 |
| 欄位選取 | 從未經處理資料中選取 input、output、model、trace_id 等關鍵字段並統一命名。 |
2 |
| 正則提取 | 從 input 欄位中提取真實使用者問題。 |
3 |
| 空值過濾 | 過濾掉無效的空記錄,只保留有效資料。 |
4 |
| 精確去重 | 完全相同的問題只保留一條。 |
5 |
| 模糊去重 | 僅有微小差異(錯別字、標點)的問題視為重複。 |
Pipeline 共提供 13 個處理運算元,涵蓋基礎處理、資料群組裝、資料清洗、特徵計算、資料採樣和 AI 處理 6 大類,可根據需求自由組合。完整列表請參見節點總覽。
步驟三:配置輸出目標
在輸出配置中填寫 Dataset 儲存資訊:
配置項 | 說明 | 樣本值 |
Workspace | 資料集所在的工作空間。 |
|
Dataset | 目標資料集名稱,支援自訂。 |
|
Dataset 名稱建議使用有含義的命名,便於後續管理。
步驟四:設定調度策略
Pipeline 支援單次執行和定時執行兩種模式,在調度配置中設定執行方式:
配置項 | 說明 | 推薦值 |
調度模式 | 單次執行( | 按需選擇 |
起始時間 | 資料讀取的起始時間。 | 按需設定 |
執行間隔 | 每次執行的時間間隔(定時模式下生效)。 |
|
步驟五:提交並運行
確認配置無誤後,單擊提交建立 Pipeline。提交後,若調度模式為定時執行,Pipeline 將按設定間隔自動運行;若為單次執行,需手動單擊執行觸發運行。
查看運行結果
Pipeline 執行完成後,開啟目標 Dataset 查看清洗後的資料。同時可以在 Pipeline 詳情頁查看以下運行資訊:
執行狀態:每次調度的運行狀態(成功或失敗)。若執行失敗,單擊失敗記錄查看錯誤記錄檔,常見原因包括資料來源無許可權、運算元參數錯誤、輸出 Dataset 不存在。
處理統計:輸入行數、輸出行數、去重數等指標。
執行歷史:歷史運行記錄。
瞭解更多
完成第一個 Pipeline 後,可以進一步探索以下內容: