全部產品
Search
文件中心

DataWorks:資料處理

更新時間:Dec 23, 2025

在資料同步過程中,未經處理資料可能存在格式不一、資訊冗餘或非結構化等問題。DataWorks離線同步任務內建的資料處理功能,可在資料同步鏈路中直接對資料進行清洗、AI輔助處理和向量化轉換,以簡化ETL架構。

使用限制

  • 僅啟用了新版資料開發的工作空間可用。

  • 僅支援使用Serverless資源群組。

  • 當前僅部分單表離線的通道開通了此功能。

  • 開啟資料處理能力會額外消耗部分計算資源(CU),請關注您的資源配額。

配置入口

  1. 建立或編輯的離線同步任務配置頁面,向下滾動至資料處理地區。

  2. 預設情況下,該功能為關閉狀態。請單擊開啟開關,以啟用資料處理模組的配置。

PixPin_2025-12-18_11-09-31

功能介紹

開啟資料處理模組後,您可以按需添加以下一種或多種處理規則。

1. 字串替換

字串替換是最基礎也是最常用的資料清洗功能,支援為當前任務的不同欄位設定多條替換規則。

嚮導模式配置說明

單擊資料處理列表下的+添加節點按鈕,選擇字串替換,可以新增一條替換規則。各配置項說明如下:

配置項

說明

名稱

為該條替換規則自訂一個易於識別的名稱。

描述

(可選)對該規則的用途進行詳細描述。

欄位名

單擊+新增規則按鈕,新增一條欄位規則。從源表欄位的下拉式清單中選擇一個欄位,應用此規則。

要替換的內容

輸入需要被尋找和替換的原始字串。

替換為

輸入您希望替換成的新字串。

.*(Regex匹配)

開關按鈕,用於開啟Regex,支援Regex方式尋找需要被替換的原始字串。

Aa(區分大小寫)

開關按鈕,用於控制要替換的內容在尋找時是否區分字母大小寫。預設不區分大小寫。

支援添加多條規則,以實現對不同欄位、不同內容的精細化替換。例如,您可以建立一條規則將gender欄位中的'男'替換為'1',同時建立另一條規則將status欄位中的'active'替換為'valid'

資料輸出預覽

  1. 完成規則配置後,單擊資料處理地區右上方的資料輸出預覽

  2. 在彈出的對話方塊中配置輸入資料。支援以下兩種方式:

    • 自動擷取:系統預設從上遊節點的輸出擷取資料。可單擊重新擷取上遊輸出重新整理資料。

    • 手動構造:單擊 +手工構造資料,在資料行中為各欄位輸入自訂值,或測試特定邊界條件(如NULL或Null 字元串)。

  3. 單擊預覽結果地區的預覽按鈕。

  4. 系統將執行已配置的所有處理規則,並在下方顯示處理結果。對比結果與預期,可判斷規則配置是否正確。

說明

此處的預覽結果僅供調試和參考,最終的執行結果以任務實際運行時為準。

指令碼模式配置說明

指令碼模式下如需支援資料處理,需在JSON指令碼的steps模組中新增"category": "map", "stepType": "stringreplace"的JSONObject,指令碼模式的通用配置流程參見:指令碼模式配置

{
  "category": "map",
  "stepType": "stringreplace",
  "parameter": {
    "condition": [
      {
        "name": "<需處理的欄位名>",
        "replaceString": "<要替換的內容>",
        "replaceByString": "<替換後的新內容>",
        "useRegex": false,
        "caseSensitive": false
      }
    ]
  },
  "displayName": "<規則名稱>",
  "description": "<規則描述>"
}

2. AI輔助處理

此功能通過調用內建的大語言模型,對指定欄位的內容進行智能化的加工和處理,賦予資料更豐富的業務價值。

核心應用情境:

  • 內容摘要:從大段文本(如產品評論、新聞內容)中提取核心摘要。

  • 資訊提取:從非結構化文本中抽取出關鍵資訊,如姓名、地址、連絡方式等。

  • 文本翻譯:將欄位內容翻譯成指定語言。

  • 情感分析:判斷文本的情感傾向(如正面、負面、中性)。

配置與使用:
添加節點時,選擇AI輔助處理。關於此功能的詳細配置方法和典型應用案例,請參見:AI輔助處理

3. 資料向量化

資料向量化是將文本或其他類型的資料通過Embedding模型轉換為高維數學向量的過程。這些向量能夠捕捉資料的語義資訊,是構建檢索增強產生(RAG)、語義搜尋、推薦系統等AI應用的關鍵步驟。

核心應用情境:

  • 構建知識庫:將文檔、工單、產品說明等文本資料向量化後存入向量資料庫,作為大模型的外部知識庫。

  • 個人化推薦:基於使用者和物品的向量表示,計算相似性,實現精準推薦。

配置與使用:
添加節點時,選擇資料向量化,選擇需要處理的欄位和使用的Embedding模型。關於此功能的詳細配置方法和實戰案例,請參見:向量化處理

相關文檔