離線同步AI輔助處理 - DataWorks

在資料同步過程中，未經處理資料可能存在格式不一、資訊冗餘或非結構化等問題。DataWorks離線同步任務內建的資料處理功能，可在資料同步鏈路中直接對資料進行清洗、AI輔助處理和向量化轉換，以簡化ETL架構。

使用限制

僅啟用了新版資料開發的工作空間可用。
僅支援使用Serverless資源群組。
當前僅部分單表離線的通道開通了此功能。
開啟資料處理能力會額外消耗部分計算資源（CU），請關注您的資源配額。

配置入口

建立或編輯的離線同步任務配置頁面，向下滾動至資料處理地區。
預設情況下，該功能為關閉狀態。請單擊開啟開關，以啟用資料處理模組的配置。

PixPin_2025-12-18_11-09-31

功能介紹

開啟資料處理模組後，您可以按需添加以下一種或多種處理規則。

1. 字串替換

字串替換是最基礎也是最常用的資料清洗功能，支援為當前任務的不同欄位設定多條替換規則。

嚮導模式配置說明

單擊資料處理列表下的+添加節點按鈕，選擇字串替換，可以新增一條替換規則。各配置項說明如下：

配置項	說明
名稱	為該條替換規則自訂一個易於識別的名稱。
描述	（可選）對該規則的用途進行詳細描述。
欄位名	單擊+新增規則按鈕，新增一條欄位規則。從源表欄位的下拉式清單中選擇一個欄位，應用此規則。
要替換的內容	輸入需要被尋找和替換的原始字串。
替換為	輸入您希望替換成的新字串。
`.*`（Regex匹配）	開關按鈕，用於開啟Regex，支援Regex方式尋找需要被替換的原始字串。
`Aa`（區分大小寫）	開關按鈕，用於控制要替換的內容在尋找時是否區分字母大小寫。預設不區分大小寫。

支援添加多條規則，以實現對不同欄位、不同內容的精細化替換。例如，您可以建立一條規則將gender欄位中的'男'替換為'1'，同時建立另一條規則將status欄位中的'active'替換為'valid'。

資料輸出預覽

完成規則配置後，單擊資料處理地區右上方的資料輸出預覽。
在彈出的對話方塊中配置輸入資料。支援以下兩種方式：
- 自動擷取：系統預設從上遊節點的輸出擷取資料。可單擊重新擷取上遊輸出重新整理資料。
- 手動構造：單擊 +手工構造資料，在資料行中為各欄位輸入自訂值，或測試特定邊界條件（如NULL或Null 字元串）。
單擊預覽結果地區的預覽按鈕。
系統將執行已配置的所有處理規則，並在下方顯示處理結果。對比結果與預期，可判斷規則配置是否正確。

說明

此處的預覽結果僅供調試和參考，最終的執行結果以任務實際運行時為準。

指令碼模式配置說明

指令碼模式下如需支援資料處理，需在JSON指令碼的steps模組中新增"category": "map", "stepType": "stringreplace"的JSONObject，指令碼模式的通用配置流程參見：指令碼模式配置。

{
  "category": "map",
  "stepType": "stringreplace",
  "parameter": {
    "condition": [
      {
        "name": "<需處理的欄位名>",
        "replaceString": "<要替換的內容>",
        "replaceByString": "<替換後的新內容>",
        "useRegex": false,
        "caseSensitive": false
      }
    ]
  },
  "displayName": "<規則名稱>",
  "description": "<規則描述>"
}

2. AI輔助處理

此功能通過調用內建的大語言模型，對指定欄位的內容進行智能化的加工和處理，賦予資料更豐富的業務價值。

核心應用情境：

內容摘要：從大段文本（如產品評論、新聞內容）中提取核心摘要。
資訊提取：從非結構化文本中抽取出關鍵資訊，如姓名、地址、連絡方式等。
文本翻譯：將欄位內容翻譯成指定語言。
情感分析：判斷文本的情感傾向（如正面、負面、中性）。

配置與使用：
在添加節點時，選擇AI輔助處理。關於此功能的詳細配置方法和典型應用案例，請參見：AI輔助處理。

3. 資料向量化

資料向量化是將文本或其他類型的資料通過Embedding模型轉換為高維數學向量的過程。這些向量能夠捕捉資料的語義資訊，是構建檢索增強產生（RAG）、語義搜尋、推薦系統等AI應用的關鍵步驟。