全部產品
Search
文件中心

MaxCompute:數倉分層

更新時間:Feb 28, 2024

在阿里巴巴的資料體系中,我們建議將資料倉儲分為三層,自下而上為:資料引入層(ODS,Operation Data Store)、資料公用層(CDM,Common Data Model)和資料應用程式層(ADS,Application Data Service)。

資料倉儲的分層和各層級用途如下圖所示。
  • 資料引入層ODS(Operation Data Store):存放未經過處理的未經處理資料至資料倉儲系統,結構上與源系統保持一致,是資料倉儲的資料準備區。主要完成基礎資料引入到MaxCompute的職責,同時記錄基礎資料的歷史變化。
  • 資料公用層CDM(Common Data Model,又稱通用資料模型層),包括DIM維度資料表、DWD和DWS,由ODS層資料加工而成。主要完成資料加工與整合,建立一致性的維度,構建可複用的面向分析和統計的明細事實表,以及匯總公用粒度的指標。
    • 公用維度層(DIM):基於維度建模理念思想,建立整個企業的一致性維度。降低資料計算口徑和演算法不統一風險。

      公用維度層的表通常也被稱為邏輯維度資料表,維度和維度邏輯表通常一一對應。

    • 公用匯總粒度事實層(DWS):以分析的主題對象作為建模驅動,基於上層的應用和產品的指標需求,構建公用粒度的匯總指標事實表,以寬表化手段物理化模型。構建命名規範、口徑一致的統計指標,為上層提供公用指標,建立匯總寬表、明細事實表。

      公用匯總粒度事實層的表通常也被稱為匯總邏輯表,用於存放派生指標資料。

    • 明細粒度事實層(DWD):以業務過程作為建模驅動,基於每個具體的業務過程特點,構建最細粒度的明細層事實表。可以結合企業的資料使用特點,將明細事實表的某些重要維度屬性欄位做適當冗餘,即寬表化處理。

      明細粒度事實層的表通常也被稱為邏輯事實表。

  • 資料應用程式層ADS(Application Data Service):存放資料產品個人化的統計指標資料。根據CDM與ODS層加工產生。
該資料分類架構在ODS層分為三部分:資料準備區、離線資料和准即時資料區。整體資料分類架構如下圖所示。在本教程中,從交易資料系統的資料經過DataWorksData Integration,同步到資料倉儲的ODS層。經過資料開發形成事實寬表後,再以商品、地區等為維度進行公用匯總。
整體的資料流向如下圖所示。其中,ODS層到DIM層的ETL(萃取(Extract)、轉置(Transform)及載入(Load))處理是在MaxCompute中進行的,處理完成後會同步到所有儲存系統。ODS層和DWD層會放在資料中介軟體中,供下遊訂閱使用。而DWS層和ADS層的資料通常會落地到線上儲存系統中,下遊通過介面調用的形式使用。