全部產品
Search
文件中心

DataWorks:資料過濾

更新時間:Mar 13, 2025

DataWorksData Integration即時ETL支援資料過濾組件使用,可以在來源與去向組件間新增資料過濾組件按配置的過濾規則,按欄位對資料進行過濾。

前提條件

  • 已完成Data Integration的基本配置與網路資源配置。

  • 僅支援如下資料來源類型的資料來源和資料去向,配置單表即時同步任務時,使用資料處理組件。

    • 資料來源:Hologres、Kafka、Loghub、Oracle、DataHub

    • 資料去向:ApsaraDB for OceanBase、DLF 2.0、Doris、Hologres、Kafka、MaxCompute、OSS-HDFS、Tablestore、StarRocks

步驟一:配置Data Integration任務

  1. 建立資料來源,詳情請參見:計算資源管理

  2. 建立Data Integration任務,詳情請參見:Data Integration側同步任務

    說明

    當Data Integration側同步任務的同步類型為單表即時,可在資料來源組件與資料去向組件之間新增資料處理組件。詳情可參見支援的資料來源及同步方案

步驟二:添加資料過濾組件

  1. 在即時ETL任務編輯頁DAG畫布中,單擊來源去向組件之間的image按鈕,新增選擇資料過濾組件。image

  2. 配置過濾規則

    • 欄位名:選擇前一個步驟的輸入欄位,取值作為條件運算式左值。

    • 判斷:條件運算類型,詳情如下表。

      條件運算類型詳情

      類型

      說明

      等於

      比較數實值型別或文本類型相等。

      不等於

      比較數實值型別或文本類型不相等。

      小於

      比較數實值型別取值或文本類型字典序小於。

      大於

      比較數實值型別取值或文本類型字典序大於。

      小於等於

      比較數實值型別取值或文本類型字典序小於等於。

      大於等於

      比較數實值型別取值或文本類型字典序大於等於。

      包含

      文本類型是否包含特定子串。

      不包含

      文本類型是否包含特定子串。

      開頭為

      文本類型是否以特定子串開頭。

      結尾為

      文本類型是否以特定子串結尾。

      為Null

      任意類型取值為Null。

      不為Null

      任務類型取值不為Null。

    • :條件運算式右值,支援選擇前一個步驟的輸入欄位或者輸入常量,選擇輸入常量時,不支援正則,支援Java逸出字元,例如\t(定位字元)、\n(分行符號)、\u0001(unicode字元)

  3. 添加規則:可以添加多個過濾規則。image

  4. 輸出欄位:來來源資料過濾後的輸出欄位名,與輸入欄位名和格式一致。

後續操作

完成來源資訊資料過濾以及去向資訊的配置後,可單擊右上方的類比運行,對Data Integration任務進行類比運行,以便查看輸出資料結果,是否符合您的需求。