全部產品
Search
文件中心

Dataphin:通過SQL加工建立離線資料集

更新時間:Mar 06, 2025

Dataphin標籤基於離線計算引擎,支援通過SQL加工方式開發資料集指標,對來源物理表欄位進行預加工後供離線標籤使用。本文將指導您如何通過SQL加工建立離線資料集。

前提條件

建立離線資料集前需先建立資料集所歸屬的標籤專案。更多資訊,請參見建立標籤專案

操作步驟

  1. 在Dataphin首頁,單擊頂部功能表列的標籤 > 標籤工作台

  2. 在頂部功能表列中,選擇專案

  3. 在左側導覽列中選擇資料準備 > 離線資料集

  4. 離線資料集頁面,單擊新增資料集。在新增離線資料集對話方塊中,選擇SQL加工

  5. 建立SQL加工配置頁面,配置資料集的基本資料加工邏輯營運配置

    • 基本資料

      參數

      描述

      資料集名稱

      填寫資料集的名稱資訊。支援中文、英文、數字、底線(_),64個字元以內。

      資料集code

      離線資料集的唯一標識。在存在相同離線資料集名稱時,可協助您定位具體離線資料集。必須以字母開頭,允許小寫英文字母、數字、底線(_),64個字元以內。

      資料集更新方式

      支援周期更新手動更新方式。

      • 周期更新:在一定時間間隔內自動更新資料集。

      • 手動更新:通過手動操作方式更新資料集。

      負責人

      請選擇該離線資料集的負責人。

      描述

      填寫離線資料集的簡單描述,1000個字元以內。

    • 加工邏輯

      參數

      描述

      加工邏輯(SQL)

      請輸入對資料來源進行加工的SQL代碼。SQL代碼說明如下:

      • 通過SQL加工的方式構造主體指標間的映射關係。

      • SELECT查詢至少存在兩個欄位。

      • 系統通常會把第一個欄位解析為主體,例如,SQL中的subjectId;後續的若干欄位解析為指標,例如,indicatorAindicatorB。若解析主體標識不準確,您可以通過下方指標定義處進行調整。

      • 支援跨專案表加工,可使用物理表和邏輯表。物理表名格式為專案英文名.專案下物理表名邏輯表名格式為資料板塊英文名.邏輯表名

        SELECT subjectId, indicatorA, indicatorB FROM project_en_name.source_table WHERE ds = ${bizdate};

      指標配置

      填寫完加工邏輯後,您需要單擊指標解析,解析SQL的指標配置列表。

      • 實體ID-實值型別:選擇實體ID的欄位以及實值型別,將用於標籤加工時實體ID的自動對應。僅支援長整型字串

      • 指標搜尋:支援輸入指標名稱描述搜尋指標。

      • 配置碼錶:支援整型Decimal(M,0)布爾型字串類型欄位配置碼錶。

        1. 單擊image.png進入配置碼錶對話方塊。

        2. 配置碼錶對話方塊中,配置相關參數。

          • 配置碼錶:預設為不配置,可以選擇碼錶為指標配置對應碼錶

          • 碼錶來源:目前僅支援手動設定

          • 碼錶名稱:請輸入碼錶名稱。支援中文、英文、數字及特殊字元,128個字元以內。

          • 碼錶描述:請輸入碼錶的簡單描述,1000個字元以內。

          • 代碼資訊:支援單個輸入和批量輸入,最多支援500組。

            • 單個輸入:單擊添加代碼值,輸入代碼值代碼名稱,均不得為空白且必須唯一,此外,代碼值的類型需要符合指標的實值型別。可單擊image.png刪除當前行。

            • 批量輸入:單擊批量輸入,可以在批量輸入代碼資訊對話方塊中,批量輸入代碼值及代碼名稱,每組按行分割,代碼值和代碼名稱中間用半形冒號(:)分隔。單擊點擊識別後,系統將自動解析批量輸入框的代碼資訊並填入代碼資訊列表。

            • 一鍵清除:單擊一鍵清除,系統將自動清除資訊列表。

        3. 單擊確定,完成代碼值配置。

          說明

          批量輸入代碼資訊時,若存在重複的代碼值或代碼名稱,單擊確定後,系統將自動定位至第一個錯誤行。

      • 操作:單擊image..png可刪除當前指標。

    • 營運配置

      說明

      若資料集更新方式為手動更新,無需進行配置。

      1. 調度周期

        • 計劃更新時間:支援按天的某一時刻進行調度。即任務每天自動運行一次,您可以根據需要指定啟動並執行時間點。

        • 調度運行計劃:單擊預覽,調度運行計劃中按照所配置的調度周期和條件調度,展示當前調度任務某個月每一天的所有調度執行個體及其調度類型,預覽日期類型可選擇按照業務日期運行日期(調度日期)

          若一天內所有執行個體有多個調度類型狀態,則按顏色展示所包含的所有調度類型狀態,並展示每個調度類型狀態名稱及其對應的執行個體個數。例如,下圖中展示為某月4日,當前調度任務有44個正常調度執行個體、2個暫停執行個體和12個空跑執行個體。image

          滑鼠懸浮在某天的調度類型模組上,可查看當前調度任務當日的詳細調度執行個體列表,包含調度類型、調度條件和條件名稱。

        • 條件調度:可設定多組調度條件,系統按照從上往下的順序評分準則,命中條件後即執行相應調度,並終止後續所有調度條件的評估。未命中任何條件時,則執行預設調度配置。更多資訊,請參見條件調度規則說明

          重要

          條件調度僅在調度類型為正常調度時生效。

      2. 調度依賴

        調度依賴即節點間的上下遊依賴關係,在Dataphin中,上遊任務節點運行完成且運行成功,下遊任務節點才會開始運行。

        • 自動解析

          系統將根據任務血緣自動解析上遊依賴節點並做關聯,資料更新將依賴上遊資料產出。

          說明
          • 若自動解析的結果不符合預期。您可以單擊image.png關閉生效按鈕,關閉後表示不選擇依賴該節點。

          • 預設本周期依賴。

        • 添加依賴

          自動解析無法解析出調度依賴關係或自動解析產生的上遊依賴配置與實際應用不符時,您可以手動添加節點的上遊依賴。

          單擊添加依賴,選擇添加物理節點邏輯表節點,在彈出的對話方塊中選擇一個或多個目標物理節或邏輯表節點後,單擊確定

          說明
          • 未購買智能研發版,則僅支援添加物理節點依賴。

          • 手動添加依賴後,再次單擊自動解析,此時若產生的解析節點與手動添加的依賴節點一致,系統將自動進行覆蓋操作。

        • 編輯依賴

          在調度依賴列表中,單擊目標上遊依賴表操作列的image表徵圖,在彈出的對話方塊中可修改依賴周期依賴策略依賴欄位(僅邏輯表節點支援修改)。依賴配置及說明,詳情請參見配置離線任務調度依賴調度依賴情境規則與樣本

          單擊目標上遊依賴表操作列的image表徵圖,可刪除對應依賴節點。

  6. 單擊儲存並發布,完成離線資料集的建立。

    說明

    儲存成功後,您可以單擊資料預覽系統將根據配置的加工邏輯展示對應資料資訊,以協助您驗證加工邏輯是否正確。

後續步驟

完成離線資料集的建立和配置後,您可以為離線資料集建立對應的離線標籤。更多資訊,請參見離線標籤