使用DataWorks進行資料建模時,數倉架構師或者模型小組成員可以在數倉規劃頁面對資料分層、業務分類、資料域、業務過程、資料集市、主題域進行設計。完成設計後,模型設計師在建模過程中可以依賴數倉規劃中的資料分層、業務分類、資料域、業務過程等對所建模型進行分層化域管理。
規劃概述
在資料建模前,需由數倉架構師協同資料開發與模型設計團隊,對企業業務及資料進行全面調研,明確資料整體結構。基於此,在數倉規劃階段需完成以下核心設計,方便對所建模型進行分層化域管理。
業務分類:面向複雜業務情境的垂直劃分,如電商、金融等。
資料域與業務過程:關鍵業務鏈路抽象。
資料集市與主題域:面向業務情境的資料彙總。
數倉分層:資料引入層ODS、公用維度層DIM、詳細資料層DWD、摘要資料層DWS及應用資料層ADS等分層邏輯。
業務視角規劃
業務分類、資料域與資料集市構成業務驅動的管理架構,通過劃分資料歸屬領域(業務分類)、定義核心商務活動(資料域)、組織情境化資料服務(資料集市),實現從資料生產到消費的價值閉環;而數倉分層則是技術驅動的資料加工流水線,支撐上述架構落地,完成資料從原始態到服務態的層級提煉。
業務分類:業務分類是最高層的業務領域劃分。比如電商、金融、零售這類真實業務單元。
資料域:資料域是一個較高層次的資料歸類標準,是對企業業務過程進行抽象、提煉、組合的集合。通常是根據業務類別、資料來源、資料用途等多個維度,對企業的業務資料進行的地區劃分。一個資料域可以歸屬多個業務分類,比如交易域可能同時服務於電商和金融業務分類下的交易情境。
業務過程:資料域下的具體商務活動,比如交易域下有如下單、支付等業務過程,一個資料域下可以有多個業務過程。
資料集市:是面向具體業務情境的資料出口,如營運平台集市。
主題域:將資料集市按照分析視角進行主題劃分,如商品分析域、使用者行為域等,一個資料集市下可以有多個主題域。
技術視角規劃
DataWorks預設預置業界通用的五層數倉(ODS、DIM、DWD、DWS、ADS)分層,基本滿足數倉開發需求,您也可以結合自身業務需要在數倉分層中進行自訂分層設計:
層級歸屬 | 數倉分層 | 英文縮寫 | 主要功能 | 支援的建模類型 | 支援的指標類型 |
貼源層 | 資料引入層 | ODS | 接收並處理未經處理資料,結構與源系統一致。 | 貼源表 | - |
公用層 | 公用維度層 | DIM | 構建企業一致性維度資料表。 | 維度資料表、維度 | 原子指標 |
詳細資料層 | DWD | 構建詳細資料的事實表,通常為寬表。 | 明細表 | 原子指標 | |
摘要資料層 | DWS | 構建公用粒度的匯總指標。 | 匯總表 | 原子指標、複合指標、派生指標 | |
應用程式層 | 應用資料層 | ADS | 存放個人化統計指標。 | 應用表、維度資料表、維度 | 複合指標、派生指標 |
數倉層級劃分是數倉規劃的重要技術管理手段,是對整個數倉的縱向分層,貫穿所有業務分類、資料域和資料集市,每個層級都會承載業務分類以及資料域(或資料集市)的映射關係。
實施建議
自主規劃設計
如果您想要滿足企業個人化需求,深度定製數倉規劃。建議先明確營運目標(如“會員增長分析”需歸屬會員域),再設計技術方案(設計DWD會員明細表)。
先規劃業務分類,資料域和資料集市。
按五層架構設計表格儲存體層級。
用檢查器規範各分層命名。
複雜企業啟用建模空間實現架構複用。