全部產品
Search
文件中心

Dataphin:維度和事實邏輯表物化配置

更新時間:Jan 25, 2025

物化配置用於配置維度和事實邏輯表的生命週期、分區欄位及自訂參數,同時支援手動設定物化表的個數及欄位在物化表中的分布,有效提升了自動化產生模型的資料查詢效率和資源使用效率。本文為您介紹如何配置維度和事實邏輯表的物化參數。

前提條件

已建立維度邏輯表或有主鍵的事實邏輯表。

操作步驟

  1. 請參見資料開發入口,進入資料開發頁面。

  2. 在資料開發頁面,按照下圖操作指引,進入物化配置面板。

    如果您當前訪問的是DevBasic(非Data_distill)專案,且專案空間為您的資料開發空間,則不需要選擇專案空間。

    物化配置

  3. 物化配置面板,配置參數。

    地區

    描述

    分區與生命週期

    • 派生指標分區:僅周期快照事實表、累積快照事實表和普通維度邏輯表支援。

    • 最大分區(MAX_PT):最大分區保留了最新的全量快照資料,選擇最大分區中的資料用於派生指標的計算,可縮短生命週期,節約儲存資源。

    • 業務日期(Bizdate):使用業務日期分區計算派生指標,可保障資料的強一致性,但需保留歷史分區用於派生指標計算。

    • 生命週期:設定儲存的生命週期,生命週期最大值為36500, 大於等於該值將自動轉為永久儲存(顯示為36500天)。

      系統支援快速選擇儲存的生命週期,包括71430365天。

    分布鍵

    計算引擎為StarRocks時,需配置分布鍵。分布鍵建議選擇高基數且經常作為查詢條件的欄位,且不建議超過3個欄位;分布鍵的順序影響儲存及查詢效率。

    說明

    若邏輯表包含主鍵時,將預設設定主鍵為分布鍵(Duplicate Key)。

    自訂物化

    開啟後可以自訂物化配置,手動設定物化表的個數及欄位在物化表中的分布。

    說明

    如果開啟自訂物化,每次新增欄位都需要人工指定物化表。

    開啟自訂物化配置後,請按照如下步驟配置物化策略。

    1. (可選)在物化配置彈框中選擇物化的初始化策略,快捷完成初始化。

      快捷初始化包含以下三種策略,當然您也可以手動調整配置。

      • 單個物化表:將所有欄位放入單個物化表。

      • 平衡行策略:產出時間與查詢效率平衡,即根據產出的時間間隔拆分物化表。

      • 生產線上策略:生產線的策略,即按照系統的始化策略。

      重要

      切換初始化策略下方物化配置將被重設,請謹慎操作。

    2. 單擊移動表徵圖,將待分配的欄位添加到展開的物化表後,單擊確定

      • 通過篩選,快速選擇目標物化表。

      • 如果需要添加到新的物化表,請單擊新增物化表

      配置後:

      • 可以通過物化結果查看已指派的欄位物化表數以及剩餘待分配的欄位

      • 可以單擊查看物化配置,查看配置詳情。

      • 可以單擊生產環境物化對比,對比生產線上策略與當前編輯中策略。

        • 物化成本:即物化成本對比。對比物化表個數冗餘儲存欄位個數以及下遊查詢關聯次數,並標記當前策略相對生產線上策略的絕對變化值。

          說明

          冗餘儲存欄位表示在兩個或兩個以上物化表冗餘存放的欄位個數;下遊查詢關聯次數是根據邏輯表的直接(一級)下遊引用情況,計算出的關聯次數。

        • 欄位產出時間:即欄位產出時間對比。標記每個欄位當前策略相對生產線上策略的絕對變化值。

          說明

          生產線上欄位產出時間為最近7天平均產出時間,而當前策略產出時間為計算所得值。

    進階物化配置

    設定自訂參數。要求需要與當前Dataphin系統綁定的計算引擎源的特性一致。詳情請參見配置自訂任務參數

  4. 單擊確定