全部產品
Search
文件中心

MaxCompute:數倉構建流程

更新時間:Feb 28, 2024

下圖為MaxCompute資料倉儲構建的整體流程。

數倉構建流程圖

基本概念

在正式學習本教程之前,您需要首先理解以下基本概念:
  • 業務板塊:比資料域更高維度業務劃分方法,適用於特別龐大的業務系統。
  • 維度:維度建模由Ralph Kimball提出。維度模型主張從分析決策的需求出發構建模型,為分析需求服務。維度是度量的環境,是我們觀察業務的角度,用來反映業務的一類屬性 。屬性的集合構成維度 ,也可以稱為實體物件。例如, 在分析交易過程時,可以通過買家、賣家、商品和時間等維度描述交易發生的環境。
  • 屬性(維度屬性):維度所包含的表示維度列稱為維度屬性。維度屬性是查詢約束條件、分組和報表標籤產生的基本來源,是資料易用性的關鍵。
  • 度量:在維度建模中,將度量稱為事實 , 將環境描述為維度,維度是用於分析事實所需要的多樣環境。度量通常為數值型資料,作為事實邏輯表的事實。
  • 指標:指標分為原子指標和派生指標。原子指標是基於某一業務事件行為下的度量,是業務定義中不可再拆分的指標,是具有明確業務含義的名詞 ,體現明確的業務統計口徑和計算邏輯,例如如支付金額。
    • 原子指標=業務過程+度量
    • 派生指標=時間周期+修飾詞+原子指標,派生指標可以理解為對原子指標業務統計範圍的圈定。
  • 業務限定:統計的業務範圍,篩選出符合商務規則的記錄(類似於SQL中where後的條件,不包括時間區間)。
  • 統計周期:統計的時間範圍,例如最近一天,最近30天等(類似於SQL中where後的時間條件)。
  • 統計粒度:統計分析的對象或視角,定義資料需要匯總的程度,可理解為彙總運算時的分組條件(類似於SQL中的group by的對象)。粒度是維度一個組合,指明您的統計範圍。例如,某個指標是某個賣家在某個省份的成交額,則粒度就是賣家、地區這兩個維度組合。如果您需要統計全表的資料,則粒度為全表。在指定粒度時,您需要充分考慮到業務和維度關係。統計粒度常用語作為派生指標的修飾詞而存在。
基本概念之間的關係和舉例如下圖所示。