全部產品
Search
文件中心

Dataphin:配置StarRocks輸入組件

更新時間:Mar 06, 2026

StarRocks輸入組件用於讀取StarRocks資料來源的資料。同步StarRocks資料來源的資料至其他資料來源的情境中,您需要先配置StarRocks輸入組件讀取的資料來源,再配置資料同步的目標資料來源。本文為您介紹如何配置StarRocks輸入組件。

前提條件

操作步驟

  1. 在Dataphin首頁頂部功能表列,選擇研發 > Data Integration

  2. 在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。

  3. 在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。

  4. 單擊頁面右上方的組件庫,開啟組件庫面板。

  5. 組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到StarRocks組件,並拖動該組件至畫布。

  6. 單擊StarRocks輸入組件卡片中的image表徵圖,開啟StarRocks輸入配置對話方塊。

  7. StarRocks輸入配置對話方塊中,配置以下參數。

    參數

    描述

    步驟名稱

    即StarRocks輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:

    • 只能包含中文、字母、底線(_)、數字。

    • 不能超過64個字元。

    資料來源

    在資料來源下拉式清單中,展示當前Dataphin中所有StarRocks類型的資料來源,包括您已擁有同步讀許可權的資料來源和沒有同步讀許可權的資料來源。單擊image表徵圖,可複製當前資料來源名稱。

    • 對於沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步讀許可權。具體操作,請參見申請資料來源許可權

    • 如果您還沒有StarRocks類型的資料來源,單擊建立資料來源,建立資料來源。詳情請參見建立StarRocks資料來源

    來源表量

    選擇來源表量。來源表量包括單表多表

    • 單表:適用於將一個表的業務資料同步至一個目標表的情境。

    • 多表:適用於將多個表的業務資料同步至同一個目標表的情境。多個表的資料寫入同一個資料表時,使用union演算法。

    表匹配方式

    可選擇通用類規則資料庫正則

    說明

    僅當來源表量選擇多表時,支援配置此項。

    選擇來源表:

    • 如果來源表量選擇了單表,可輸入表名關鍵字進行搜尋,或輸入準確表名後單擊精準尋找。選擇表後,系統將自動進行表狀態檢測。單擊image表徵圖,可複製當前所選表的名稱。

    • 如果來源表量選擇了多表,則根據表匹配方式,可填寫不同運算式來添加表。

      • 表匹配方式選擇通用類規則:在輸入框中,輸入表的運算式,篩選具有相同結構的表。 系統支援枚舉形式、類正則形式及兩者混合形式。例如,table_[001-100];table_102;

      • 表匹配方式選擇資料庫正則:在輸入框中填寫當前資料庫支援的Regex,系統將根據此正則匹配目標庫中的表。任務運行時將根據資料庫正則即時匹配新的表範圍進行同步

      運算式填寫完成後,可單擊精準尋找,在確認匹配詳情對話方塊中,查看匹配表的列表。

    切分鍵(非必選)

    您可以將來源資料表中欄位類型為整型的某一列作為切分鍵,推薦使用主鍵或有索引的列作為切分鍵。讀取資料時,根據配置的切分鍵欄位進行資料分區,實現並發讀取,可以提升資料同步效率。

    批量讀取條數(非必填)

    一次性讀取資料的條數。在從來源資料庫讀取資料時,可以配置一個特定的批量讀取條數(如1024條記錄),而不是一條一條地讀取,以減少與資料來源之間的互動次數,提高I/O效率,並降低網路延遲。

    輸入過濾(非必填)

    填寫輸入欄位的過濾資訊,例如ds=${bizdate}輸入過濾適用於以下兩種情境:

    • 固定的某一部分資料。

    • 參數過濾。

    輸出欄位

    輸出欄位地區展示了已選中表及篩選條件命中的所有欄位。支援建立或大量新增輸出欄位,如果不需要將某些欄位輸出至下遊組件,也可以刪除對應的欄位。

    • 大量新增:單擊大量新增,支援JSON、TEXT格式、DDL格式大量設定

      說明

      大量新增完成,單擊確定後會覆蓋已配置的欄位資訊。

      • 以JSON格式大量設定,例如:

        // 樣本:
        [{
          "name": "user_id",
          "type": "String"
         },
         {
          "name": "user_name",
          "type": "String"
         }]
        說明

        name表示引入的欄位名稱,type表示引入後的欄位類型。例如,"name":"user_id","type":"String"表示把欄位名為user_id的欄位引入,設定欄位類型為String。

      • 以TEXT格式大量設定,例如:

        // 樣本:
        user_id,String
        user_name,String
        • 行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、半形分號(;)、半形句號(.)。

        • 資料行分隔符號用於分隔欄位名與欄位類型,預設為半形逗號(,)。

      • 以DDL格式大量設定,例如:

        CREATE TABLE tablename (
            id INT PRIMARY KEY,
            name VARCHAR(50),
            age INT
        );
    • 建立輸出欄位單擊+建立輸出欄位,根據頁面提示填寫欄位和選擇類型

    • 單個刪除欄位:如果需要刪除少量的欄位,可單擊輸出欄位列表目標欄位操作列下的sgaga表徵圖,刪除多餘的欄位。

      說明

      當計算引擎為StarRocks時,StarRocks輸入組件的輸出欄位支援查看欄位的分類分級,非StarRocks計算引擎則不支援。

    • 大量刪除欄位:如果需要刪除大批量欄位,可單擊欄位管理,在欄位管理對話方塊選擇多個欄位後,單擊image左移表徵圖,將已選的輸入欄位移入到未選的輸入欄位並單擊確認,完成欄位的大量刪除。

      image..png

  8. 單擊確認,完成StarRocks輸入組件的屬性配置。