全部產品
Search
文件中心

Dataphin:步驟二:規劃數倉

更新時間:Jan 25, 2025

數倉規劃是基於Dataphin建設資料中台的第一步,同時也是資料體系的頂層設計中至關重要的一步。在開始資料開發前,需要完成資料倉儲的規劃,包括定義資料板塊、專案、資料來源、計算源和統計周期。本文將指導您完成本教程的規劃數倉。

背景資訊

  • 資料板塊:資料板塊是邏輯空間的重要組成部分,是基於業務特徵劃分的命名空間。 本教程以dataphin_tutorial為例,作為資料板塊的命名空間。

  • 計算源:為資料的處理提供計算及儲存資源。

  • 專案:專案是Dataphin的基主要組織單元,是進行多使用者隔離和存取控制的主要邊界。本教程以dataphin_tutorial為例,作為專案名稱。

  • 資料來源:業務資料中讀取未經處理資料和寫入資料倉儲過程中的資料。

步驟一:建立資料板塊

  1. 在Dataphin首頁的頂部功能表列中,選擇規劃 > 資料架構

  2. 資料板塊頁面,單擊+建立資料板塊

  3. 建立資料板塊對話方塊的生產開發類型步驟中選擇Basic模式並單擊下一步

  4. 板塊定義中,配置板塊的基礎資訊商務資訊

    參數

    描述

    板塊英文名

    輸入為dataphin_tutorial

    板塊名稱

    輸入為入門教程

    描述資訊(非必填)

    輸入簡單的描述。例如,入門教程

    表徵圖

    選擇gaga表徵圖。

    板塊架構師

    選擇一個或多個成員,負責板塊資訊設定,包括基本資料更新、商務資訊更新、單元管理等。

    業務負責人(非必選)

    為板塊資料的業務使用穩定性負責,可根據需要進行選擇。

    資料負責人(非必選)

    為板塊資料生產品質保障負責,可根據需要進行選擇。

  5. 單擊下一步,配置邏輯表命名規範。建立邏輯表時,系統基於邏輯表命名規範自動預產生推薦的邏輯表名稱,您可以編輯為其他任意名稱,當前可使用預設設定。

    說明

    資料板塊建立後,可以在資料板塊的研發規範 > 表規範 > 邏輯表命名規範進行編輯。修改表首碼將對同一個邏輯表大類的全部子類型生效。例如,修改維度邏輯表大類,將對普通維度邏輯表、層級維度邏輯表等子類型生效。

  6. 單擊確定,完成資料板塊的建立。

    資料板塊各參數配置詳情請參見建立資料板塊

步驟二:建立MaxCompute計算源

  1. 在Dataphin首頁的頂部功能表列中,選擇規劃 > 計算源

  2. 計算源頁面單擊新增計算源,選擇MaxCompute計算源

  3. 建立MaxCompute計算源頁面中,配置參數。

    參數

    描述

    計算源類型

    選擇MaxCompute

    Endpoint

    預設為Dataphin執行個體計算引擎的Endpoint,不支援修改。

    AccessKey ID

    存取金鑰中的AccessKey ID,可以通過使用者資訊管理頁面擷取。

    AccessKey Secret

    存取金鑰中的AccessKey Secret,可以通過使用者資訊管理頁面擷取。

    MaxCompute專案

    輸入dataphin_tutorial(在阿里雲建立的MaxCompute(ODPS)專案名稱)。

    外部項目

    不選擇此項。

    計算源名稱

    輸入dataphin_tutorial

    描述

    輸入dataphin_tutorial專案的離線計算源

  4. 單擊校正並提交,完成專案計算源的建立。

    計算源各參數配置詳情請參見建立MaxCompute計算源

步驟三:建立專案

  1. 在Dataphin首頁的頂部功能表列中,選擇規劃 > 專案

  2. 專案管理頁面單擊建立通用專案,在生產開發類型步驟中選擇Basic模式後,單擊下一步

  3. 專案定義步驟中,配置歸屬板塊、基本資料、商務資訊、安全設定、更多設定。

    參數

    描述

    資料板塊

    選擇dataphin_tutorial

    專案英文名

    輸入dataphin_tutorial

    專案名稱

    輸入dataphin_tutorial

    計算源類型

    • 離線引擎:開啟離線引擎並選擇MaxCompute。如下圖所示:

      image.png

    • MAXC:選擇在MaxCompute建立的dataphin_tutorial計算源。

    • 專案預設資源群組該專案下任務產生的執行個體調度預設使用的資源群組,可在任務配置時自訂修改單個任務對應的資源群組,僅支援選擇已關聯可使用的資源群組。可選擇租戶預設資源群組或建立資源群組,建立資源群組詳情請參見建立自訂資源群組

    空間類型

    選擇通用層

    說明
    • 空間類型可選擇應用程式層中介層貼源層通用層

    • 應用程式層(ADS):面向業務需求,定義產生可應用於不同情境的個人化、多樣化的資料指標。

    • 中介層(CDM):經過加工、清洗、匯總後的資料。

    • 貼源層(ODS):是在STG層資料加工匯總後形成的業務系統的未經處理資料。

    • 通用層:一般用於通用任務或者同時做多種類型的任務開發。

    安全設定

    使用預設配置

    更多設定

    使用預設配置

  4. 單擊確定,完成專案的建立。

    專案各參數配置詳情請參見建立通用專案

步驟四:建立來源資料源

  1. 在Dataphin首頁的頂部功能表列中,選擇管理中心 > 資料來源管理

  2. 資料來源頁面單擊+建立資料來源,在關係型資料來源地區中選擇MySQL

  3. 建立MySQL資料來源對話方塊中,配置資料來源資訊。

    參數

    描述

    資料來源名稱

    輸入為dataphin_tutorial

    版本

    選擇為MySQL8

    資料來源描述(非必填)

    填寫資料來源簡單描述。例如,入門教程的來源資料

    資料來源配置

    選擇“生產”資料來源

    標籤(非必填)

    預設不填

    JDBC URL

    輸入格式為jdbc:mysql://host:port/dataphinhost:port資訊可以登入MySQL執行個體詳情頁進行查看。如下圖所示:

    image.png

    重要
    • 串連地址請確保已設定Dataphin的IP至資料庫白名單中,否則可能導致串連失敗。

    • 使用內網地址時請確保資料庫與Dataphin執行個體在同一地區。

    使用者名稱密碼

    輸入為dataphin

    SSL加密

    若您的MySQL資料來源已配置SSL加密,您可以選擇開啟並上傳Truststore認證和填寫Truststore認證密碼進行加密傳輸。

    進階設定

    使用預設配置

  4. 單擊測試連接

  5. 連通性測試通過後,單擊確定,完成資料來源的建立。

    資料來源各參數配置詳情請參見建立MySQL資料來源