AgentLoop Pipeline 快速開始 - Cloud Monitor

本文介紹如何建立並運行第一條 AgentLoop Pipeline，完成 Agent 資料的自動去重清洗。

Pipeline 處理流程

Pipeline 從 LogStore 讀取未經處理資料，經過多級自動處理（去重、採樣、AI 調用等），產出資料沉澱到資料集（Dataset）。

登入AgentLoop控制台，在左側導覽列資料集-資料處理中，選擇任務管理，單擊建立任務。在輸入日誌庫中選擇 LogStore 作為資料輸入，填寫以下資訊：

配置項	說明	樣本值
Project	資料所在的 SLS 專案。	`your-project`（請根據實際環境填寫）
LogStore	儲存 Agent 未經處理資料的日誌庫。	`your-agent-logstore`（請根據實際環境填寫）
查詢條件	按服務名等條件式篩選資料範圍。	`serviceName:your-agent-service`（請根據實際環境填寫）

說明

如果查詢條件配置錯誤，系統將提示法錯誤。請檢查欄位名稱和查詢文法是否正確。

本例使用資料去重清洗模板，選用 5 個運算元構成最簡處理鏈路：

序號	運算元類型	運算元名稱	作用
1	`project`	欄位選取	從未經處理資料中選取 input、output、model、trace_id 等關鍵字段並統一命名。
2	`extend`	正則提取	從 input 欄位中提取真實使用者問題。
3	`where`	空值過濾	過濾掉無效的空記錄，只保留有效資料。
4	`dedup-exact`	精確去重	完全相同的問題只保留一條。
5	`dedup-fuzzy`	模糊去重	僅有微小差異（錯別字、標點）的問題視為重複。

說明

Pipeline 共提供 13 個處理運算元，涵蓋基礎處理、資料群組裝、資料清洗、特徵計算、資料採樣和 AI 處理 6 大類，可根據需求自由組合。完整列表請參見節點總覽。

在輸出配置中填寫 Dataset 儲存資訊：

說明

Dataset 名稱建議使用有含義的命名，便於後續管理。

Pipeline 支援單次執行和定時執行兩種模式，在調度配置中設定執行方式：

確認配置無誤後，單擊提交建立 Pipeline。提交後，若調度模式為定時執行，Pipeline 將按設定間隔自動運行；若為單次執行，需手動單擊執行觸發運行。

Pipeline 執行完成後，開啟目標 Dataset 查看清洗後的資料。同時可以在 Pipeline 詳情頁查看以下運行資訊：

執行狀態：每次調度的運行狀態（成功或失敗）。若執行失敗，單擊失敗記錄查看錯誤記錄檔，常見原因包括資料來源無許可權、運算元參數錯誤、輸出 Dataset 不存在。
處理統計：輸入行數、輸出行數、去重數等指標。
執行歷史：歷史運行記錄。

完成第一個 Pipeline 後，可以進一步探索以下內容：