全部產品
Search
文件中心

Dataphin:配置Elasticsearch輸入組件

更新時間:Mar 06, 2025

Elasticsearch輸入組件用於讀取Elasticsearch資料來源的資料。同步Elasticsearch資料來源的資料至其他資料來源的情境中,您需要先配置Elasticsearch輸入組件讀取的資料來源,再配置資料同步的目標資料來源。本文為您介紹如何配置Elasticsearch輸入組件。

前提條件

  • 已建立Elasticsearch資料來源。具體操作,請參見建立Elasticsearch資料來源

  • 進行Elasticsearch輸入組件屬性配置的帳號,需具備該資料來源的同步讀許可權。如果沒有許可權,則需要申請資料來源許可權。具體操作,請參見申請資料來源許可權

操作步驟

  1. 在Dataphin首頁頂部功能表列,選擇研發 > Data Integration

  2. 在整合頁面頂部功能表列選擇專案(Dev-Prod模式需要選擇環境)。

  3. 在左側導覽列中單擊離線整合,在離線整合列表中單擊需要開發的離線管道,開啟該離線管道的配置頁面。

  4. 單擊頁面右上方的組件庫,開啟組件庫面板。

  5. 組件庫面板左側導覽列中需選擇輸入,在右側的輸入組件列表中找到Elasticsearch組件,並拖動該組件至畫布。

  6. 單擊Elasticsearch輸入組件卡片中的image表徵圖,開啟Elasticsearch輸入配置對話方塊。

  7. Elasticsearch輸入配置對話方塊,配置參數。

    參數

    描述

    基礎配置

    步驟名稱

    即Elasticsearch輸入組件的名稱。Dataphin自動產生步驟名稱,您也可以根據業務情境修改。命名規則如下:

    • 只能包含中文、字母、底線(_)、數字。

    • 不能超過64個字元。

    資料來源

    在資料來源下拉式清單中,展示當前Dataphin中所有Elasticsearch類型的資料來源和專案層級,包括是否擁有同步讀許可權的資料來源。單擊image表徵圖,可複製當前資料來源名稱。

    • 對於沒有同步讀許可權的資料來源,您可以單擊資料來源後的申請,申請資料來源的同步讀許可權。具體操作,請參見申請資料來源許可權

    • 如果您還沒有Elasticsearch類型的資料來源,單擊建立,建立資料來源。具體操作,請參見建立Elasticsearch資料來源

    查詢類型

    可以根據索引(Index)或索引別名(Alias)選擇讀取的索引文檔。不同查詢類型需要配置不同參數。

    • 索引(Index)。

      • 索引文檔:Elasticsearch中的index名。單擊image表徵圖,可複製當前所選索引文檔的名稱。

      • 索引文件類型:Elasticsearch中index的type名。

        說明

        索引文檔索引文件類型在Elasticsearch 6.x、Elasticsearch 7.x版本為必填,Elasticsearch 8.x版本為非必填。

    • 索引別名(Alias)。

      • 索引別名:Elasticsearch中的index的別名Alias。

      • 索引文件類型:Elasticsearch中index的type名。

    檢索查詢條件

    Elasticsearch的query參數,用於全量或增量查詢,例如{ "match_all": {}}表示全量查詢。

    遊標時間

    填寫遊標存放時間,即Elasticsearch的分頁參數。

    • 設定過小時,如果擷取兩頁資料間隔時間超出scroll,會導致遊標到期,進而遺失資料。

    • 設定過大時,如果同一時刻發起的查詢過多,超出服務端max_open_scroll_context配置時,會導致資料查詢報錯。例如:5m表示5分鐘的遊標時間。

    單位:天(-d),小時(-h),分鐘(-m),秒(-s),毫秒(-ms),微秒(-micros),納秒(-nanos)。

    進階配置

    批量讀取條數

    一次性讀取資料的條數,預設1024條。在從來源資料庫讀取資料時,可以配置一個特定的批量讀取條數,而不是一條一條地讀取,以減少與資料來源之間的互動次數,提高I/O效率,並降低網路延遲。

    連線逾時時間

    用戶端連線逾時時間,預設6000秒。

    管理逾時時間

    用戶端讀取逾時時間,預設6000秒。

    日期格式

    當同步欄位存在date類型,且該欄位mapping沒有format配置時,需要配置dateFormat參數。ES中預設格式為:yyyy-MM-dd'T'HH:mm:ssZ

    輸出欄位

    為您展示輸出欄位。

    • 擷取欄位資訊。

      查詢類型為索引(Index)時,支援單擊擷取欄位資訊,擷取所選的索引(Index)欄位資訊。

    • 大量新增欄位。

      1. 單擊大量新增

        • 以JSON格式大量設定。樣本如下:

          [{"name":"col_integer","type":"integer"},
           {"name":"col_long","type":"long"},
           {"name":"col_double","type":"double"}]
          說明

          name表示引入的欄位名稱,type表示引入後的欄位類型。 例如:"name":"user_id","type":"String" 表示把欄位名為user_id的欄位引入,設定欄位類型為String。

        • 以TEXT格式大量設定,樣本如下:

          col_long,long
          col_double,double
          • 行分隔字元用於分隔每個欄位的資訊,預設為分行符號(\n),可支援分行符號(\n)、分號(;)、點(.)。

          • 資料行分隔符號用於分隔欄位名與欄位類型,預設為英文逗號(,)。

      2. 單擊確定

    • 建立輸出欄位

      單擊建立輸出欄位,根據頁面提示填寫欄位及選擇類型

    • 管理輸出欄位。

      您可以對已添加的欄位執行如下操作:

      • 單擊拖動欄位旁的image移動表徵圖,可調換欄位所處位置。

      • 單擊操作列下的agag編輯表徵圖,編輯已有的欄位。

      • 單擊操作列下的agfag刪除表徵圖,刪除已有的欄位。

  8. 單擊確認,完成Elasticsearch輸入組件的屬性配置。