數倉分層是結合對業務情境、實際資料、使用系統的綜合分析,對資料模型進行的整體架構設計及層級劃分。用於將不同用途的資料,歸類劃分至不同的分層,便於您更好地組織、管理、維護資料。
分層歸屬
DataWorks為您提供了貼源層、公用層、應用程式層等分層歸屬,您可以將不同功能作用的分層掛載至相應歸屬,通過層級化結構呈現輸出。下圖以預設的五層資料分層為例,資料分層規劃完成後,後續的表資料存放區可根據規劃分別儲存至不同的資料分層中。
貼源層:用於資料庫、日誌、訊息等基礎來源資料的引入。來源資料經過一系列ETL操作進入貼源層,該層級只能掛載貼源表。
公用層:用於加工、整合貼源層輸入的公用資料,建立統一的指標維度,構建可複用面向分析和統計的明細事實資料和摘要資料,該層級可掛載明細表、維度資料表、匯總表。資料域/業務過程屬於該層的範疇。
應用程式層:基於實際應用需求,擷取公用層加工整合後的資料,面向具體應用情境或指定產品進行的個人化資料統計,該層級可以掛載應用表和維度資料表。資料集市/主題域屬於該層的範疇。
定義數倉分層
內建分層
DataWorks預設為您建立資料引入層ODS(Operational Data Store)、公用維度層DIM(Dimension)、詳細資料層DWD(Data Warehouse Detail)、摘要資料層DWS(Data Warehouse Summary)及應用資料層ADS(Application Data Service)等五層。
各個分層的功能介紹如下:
資料引入層 ODS(Operational Data Store)
ODS層用於接收並處理需要儲存至資料倉儲系統的未經處理資料,其資料表的結構與未經處理資料所在的資料系統中的表結構一致,是資料倉儲的資料準備區。ODS層對未經處理資料的操作具體如下:
將原始的結構化資料增量或全量同步至資料倉儲中。
將原始的非結構化資料(例如,日誌資訊)進行結構化處理,並儲存至資料倉儲。
ODS層的資料表,命名必須以
ods開頭。
詳細資料層 DWD(Data Warehouse Detail)
DWD層通過企業的商務活動事件構建資料模型。基於具體業務事件的特點,構建最細粒度的詳細資料表。您可以結合企業的資料使用特點,將詳細資料表的某些重要維度屬性欄位適當冗餘,即寬表化處理。同時,也可以減少詳細資料表及維度資料表的關聯,提高明細表的易用性。
摘要資料層 DWS(Data Warehouse Summary)
DWS層通過分析的主題對象構建資料模型。基於上層的應用和產品的指標需求,構建公用粒度的匯總指標事實表。
例如,從ODS層中對使用者的行為做一個初步的歸類匯總,抽象出來一些通用的維度,假設維度為時間、IP、ID,並根據這些維度統計出相關資料,比如使用者在不同登入IP下每個時間段購買的商品數。則在DWS層可以進一步添加一層輕度的匯總,可以讓計算更加的高效。例如在此基礎上計算僅7天、30天、90天的行為會節省很多時間。
應用資料層 ADS(Application Data Service)
ADS層用於存放資料產品個人化的統計指標資料,輸出各種報表。例如,某電商企業,在6月9日至6月19日,杭州地區出售的各大球類商品的數量及排行情況。
公用維度層 DIM(Dimension)
DIM層使用維度構建資料模型。可基於實際業務,存放邏輯模型的維度資料表;或存放概念性模型的維度定義,通過定義維度,確定維度主鍵,添加維度屬性,關聯不同維度等操作,構建整個企業的一致性資料分析維表,協助您降低資料計算口徑和演算法不統一的風險。
自訂分層
進入數倉分層介面可以查看預置的數倉層級,並選擇平鋪展示或層級結構展示來調整頁面結構。
若以上數倉分層不滿足需求,可以通過建立分層進行自訂:
單擊建立分層,在建立數倉分層表單配置分層的基本資料,關鍵參數如下:
參數
描述
分層歸屬
該參數與模型類型配合使用。用於將建立的分層劃分至不同層級,並關聯對應的模型類型。
說明分層歸屬一旦設定(包括建立時配置及編輯修改配置)則無法變更,請您合理規劃層級歸屬。
模型類型
該參數與分層歸屬配合使用。用於將對應的模型類型掛載至不同的分層歸屬。
貼源層:只能掛載貼源表
公用層:可以掛載明細表、匯總表、維度資料表、維度,其中維度資料表和維度可以選擇單獨掛載或者同時掛載。
應用程式層:可以掛載應用表、維度資料表、維度,其中維度資料表和維度可以選擇單獨掛載或者同時掛載。
說明模型類型一旦設定則無法變更,請您合理規劃模型類型。
備忘
數倉分層的備忘資訊。輸入分層功能描述,快速理解作用並確保資料存放到正確分層。
刪除分層。若分層中已存在資料表,需先刪除所有表,方可刪除該分層。
配置數倉分層檢查器
數倉分層檢查器通過制定模型與指標的命名規範,在建立時自動產生表名,使發布後的物理表名稱直觀體現商務資訊,便於使用者快速理解。
單擊已建立的分層,進入數倉分層詳情頁。
在檢查器管理地區單擊新增規則,選擇規則類型:新增模型規則或新增指標規則。
檢查器參數配置說明如下表。
新增模型規則
配置項
描述
規則名稱
建立檢查器的規則名稱。
規則類型
模型規則:預設為表名(表英文名),在維度建模建立模型時,可通過選擇對應的檢查器自動產生表名。
規則定義
定義資料模型的命名規範。後續在維度建模中使用該規範檢測分層中模型名稱。
模型規則:
輸入表的首碼資訊,通過表首碼進行檢測。例如,數倉分層要求表名稱以
dim開頭,則可輸入dim。也可單擊
表徵圖,使用業務大類英文縮寫、資料域英文縮寫、資料集市英文縮寫、主題域英文縮寫等多種類別的來定義規則。可自由組合。以下為系統推薦的命名規則:
公用維度層:dim_{業務分類}_{資料域}_{自訂內容}_{儲存策略}
詳細資料層:dwd_{業務分類}_{資料域}_{業務過程}_{自訂內容}_{儲存策略}
摘要資料層:dws_{業務分類}_{資料域}_{自訂內容}_{時間周期}
應用資料層:ads_{業務分類}_{資料集市}_{主題域}_{自訂內容}_{時間周期}
描述
檢查器的描述說明。
新增指標規則
配置項
描述
規則名稱
建立檢查器的規則名稱。
規則類型
指標規則:可配置為中文名稱或英文縮寫,在建立指標時,根據指定的預設規則自動產生派生指標名稱。
規則定義
定義指標的命名規範。後續可在資料指標中使用該規範檢測分層中指標的名稱。
指標規則:選擇修飾詞、原子指標、統計周期來定義規則。可自由組合順序。
描述
檢查器的描述說明。
設定預設檢查器。
您可以在檢查器列表的上方的預設規則中為模型或指標設定預設檢查器,後續建立模型或指標時,若沒有明確指定規則,預設使用該檢查器為模型或指標自動產生表名和指標名。
強弱規則說明。
弱規則:命名檢查器被設定為弱規則時,使用者可忽略該規則定義表名,模型依舊可以建立成功。
強規則:命名檢查器被設定為強規則時,使用者在建立模型或指標時,必須要使用該規範建立模型或指標名稱,否則無法儲存模型或指標。
使用數倉分層
後續您可以在維度建模或資料指標中,選擇對應的數倉分層後,建立邏輯模型或者各類指標。
使用檢查器
在維度建模或資料指標中使用。
維度建模:
自動產生表名:使用者建立邏輯模型時,在表名規則中可選擇檢查器,系統會自動根據檢查器的規則產生表名的推薦填寫內容。
檢查表名是否符合規則:在建立和編輯表名時,若未選擇檢查器,使用者在輸入表名,並儲存邏輯模型時,系統會自動根據檢查器的規則檢查輸入的表名是否符合規範。
如有多個檢查器,只需符合其中一個檢查器,即可通過檢查器的校正。
資料指標
自動產生指標名稱:使用者建立派生指標時,選擇時間周期、修飾詞和原子指標後,點擊智能推薦,系統會自動根據預設規則產生中英文指標名稱。
檢查指標名稱是否符合規範:在建立和編輯指標的英文縮寫和中文名稱,並儲存指標時,系統會自動根據檢查器的規則檢查輸入的名稱是否符合規範。
如有多個檢查器,只需符合其中一個檢查器,即可通過檢查器的校正。
直接觸發檢測並查看結果。
檢查器配置完成後,單擊觸發檢測,根據檢查器的配置內容,檢測當前分層中的資料模型命名是否符合規範。您可根據檢測結果將不符合規範的模型進行相關處理操作。
說明暫不支援指標規則使用觸發檢測功能。
檢測操作僅觸發啟用狀態的檢查器。
建立的檢查器預設為啟用狀態。若您無需使用檢查器,則可將其關閉,關閉後將不會觸發該檢查器執行檢測任務。
檢查結束後,單擊查看結果,即可查看本次檢測結果。
後續步驟
完成上述步驟後,您可以進入資料標準開始標準的定義,也可以進入維度建模和資料指標進行模型和指標的開發。
如您的數倉規模比較龐大,有較多團隊協同開發,也可以將當前已規劃好的數倉共用給其他工作空間來使用,配置方式詳情參見:建模空間。