普通維度邏輯表用於描述實體物件,包含對實體物件的各方面描述。例如會員普通維度邏輯表,包含會員名稱、會員ID、會員郵件等資料。本文為您介紹如何建立並配置普通維度邏輯表。
使用限制
若您未購買資料標準模組,不支援設定表中的資料標準欄位。
若您未購買資產安全模組,不支援設定表中的資料分級、資料分類欄位。
若您未購買資產品質模組,不支援實現主鍵欄位的唯一和非空校正。
前提條件
已完成業務實體的建立。更多資訊,請參見建立並管理業務實體。
操作步驟
步驟一:建立普通維度邏輯表
在Dataphin首頁的頂部功能表列中,選擇研發 > 資料研發。
在頂部功能表列中選擇專案(Dev-Prod模式還需要選擇環境)。
在左側導覽列中需選擇規範建模 > 維度邏輯表。
在右側維度邏輯表列表中,單擊
建立表徵圖。在建立維度邏輯表對話方塊中,配置以下參數。
參數
描述
業務對象
選擇普通對象。
表類型
業務對象選擇普通對象,表類型為普通維度邏輯表,不支援修改。
資料板塊
預設為專案關聯的資料板塊,不支援修改。
主題域
預設為業務對象所在的主題域,不支援修改。
計算引擎
設定Dataphin執行個體為Hadoop計算引擎的租戶支援選擇計算引擎,包括Hive、Impala、Spark。
重要對應的計算引擎需要在開啟後,才可以支援進行選擇。更多資訊,請參見建立Hadoop計算源。
當計算引擎為TDH 6.x或TDH 9.3.x時,不支援配置此項。
計算引擎存在以下限制,詳情如下:
Hive:不可讀取儲存為Kudu格式的來源表。
Impala:可讀取儲存為Kudu格式的來源表,暫不支援將邏輯表格儲存體為Kudu。如果沒有Kudu格式的來源表,不建議使用。
Spark:Spark不可讀取儲存為Kudu格式的來源表。
資料時效
資料時效用於定義後續該維度邏輯表的資料時效。普通維度邏輯表的資料時效支援選擇T+1(天表)、T+h(小時表)和T+m(分鐘錶)。
說明ArgoDB、StarRocks、SelectDB、Doris計算引擎僅支援離線T+1(天表)。
邏輯表名
填寫邏輯表名,表名稱總長度需要在100個字元以內。選擇業務對象後,系統將自動填滿邏輯表名,填充規則為
<資料板塊名稱>.dim_<業務對象編碼>_<資料時效>。重要僅允許填寫字母,數字和底線(_),且首位必須為字母,大小寫不敏感,輸入大寫字母時,系統將自動轉為小寫。
label_為系統保留首碼,不允許開頭為label_。AnalyticDB for PostgreSQL表名稱總長度需要在50個字元以內。
根據上述選擇的資料時效,
<資料時效>展示資訊不同,詳細說明如下:df:T+1時效,日全量,每天儲存歷史截止當天的全量資料。
hf:T+h時效,小時全量,每小時儲存歷史截止當前小時的全量資料。
mf:T+m時效,分鐘全量,每15分鐘儲存歷史截止最近15分鐘的全量資料。
中文名稱
命名規則如下:
不能超過128個字元。
支援任何字元。
描述資訊
填寫對維度邏輯表的簡單描述,1000個字元以內。
單擊確定,完成普通維度邏輯表建立。
步驟二:配置普通維度邏輯表欄位資訊
在表結構配置頁面配置當前普通維度邏輯表的表欄位、資料類型、欄位類別等結構資訊。
說明單擊邏輯表名稱後的
表徵圖,可查看邏輯表的基本資料。區塊
說明
①表欄位定位
單擊可定位欄位列表的基本配置或資產治理配置。
②搜尋與篩選
您可以通過表欄位名稱搜尋所需欄位。
單擊
可以根據資料類型、欄位類別、有無關聯維度、關聯維度、欄位約束、資料分級條件進行篩選。③欄位列表操作
調整欄位順序:調整欄位順序前,請確保引用該邏輯表的下遊沒有使用
select *查詢本邏輯表,避免造成資料錯誤。引入欄位:為表引入新欄位。支援從建表語句引入和從表引入。具體操作,請參見為維度邏輯表引入欄位。
添加欄位:支援添加資料欄位和分區欄位,您可根據業務情況編輯欄位的名稱、說明、資料類型、欄位類別、關聯維度、欄位標準、欄位約束、資料分類、資料分級及備忘資訊。
說明MaxCompute引擎下支援建立不超過6級的分區欄位。
ArgoDB、StarRocks、SelectDB、Doris計算引擎不支援添加分區欄位。
④欄位列表
欄位列表為您展示欄位的序號、欄位名稱、說明、資料類型、欄位類別、關聯維度、欄位標準、欄位約束、資料分類、資料分級及備忘等欄位的詳細資料。
序號:表欄位序號。每新增1個欄位,自增+1。
欄位名稱:表欄位名稱。您可輸入欄位名稱或中文關鍵詞,將自動匹配標準預置的欄位名。
說明:表欄位說明資訊,僅限填寫512個字元以內。
資料類型:支援string、bigint、double、timestamp、decimal、文本、數值、日期時間及其他資料類型。
欄位類別:支援設定為主鍵、分區、屬性。
說明僅允許一個主鍵欄位。
僅支援string、varchar、bigint、int、tinyint、smallint類型欄位作為分區欄位。
關聯維度:具體操作,請參見添加關聯維度。
欄位標準:選擇欄位的欄位標準。如需建立標準,請參見建立及管理資料標準。
欄位約束:選擇欄位的欄位約束。支援唯一和非空約束。
資料分類:選擇欄位的資料分類。如需建立資料分類,請參見建立資料分類。
資料分級:選擇資料分類後,系統將自動識別資料層級。
備忘:填寫欄位的備忘資訊。僅限填寫2048個字元以內。
同時您可以在操作列下對欄位進行刪除操作。
說明欄位刪除後不可撤銷。
維度邏輯表主鍵和系統磁碟分割欄位不支援刪除。
⑤大量操作
您可以批量選擇表欄位,進行以下操作。
刪除:單擊
表徵圖,大量刪除已經選中的資料欄位。資料類型:單擊
表徵圖,批量修改已經選中的資料類型。欄位類別:單擊
表徵圖,批量修改已經選中的欄位類別。詞根命名:單擊
表徵圖,系統將對欄位的說明內容進行分詞並匹配已經建立的詞根,進列欄位名稱推薦。您可以在詞根命名對話方塊中,將選中欄位的名稱替換為修改後的值。如下圖所示:
說明若推薦的欄位名稱均不滿足需求,您可以在修複後欄位名稱輸入框中進行修改。
單擊重設將重設修改後欄位名稱為系統的命中詞根。
欄位標準:單擊
表徵圖,系統將根據欄位名稱進列欄位標準推薦。您可以在欄位標準對話方塊中,將欄位設定為推薦的欄位標準。欄位約束:單擊
表徵圖,大量設定欄位約束。重要子維度邏輯表不支援設定欄位約束。
單擊儲存並下一步。
為維度邏輯表引入欄位
從表引入
在上述建立的維度邏輯表的配置頁面,單擊從表引入。

在從表引入對話方塊,選擇來源表後,選擇您所需添加的欄位。
參數
描述
來源表
支援選擇當前租戶下所有具有讀取許可權的物理表(非Dataphin自動產生的物理表)、邏輯表、視圖(非參數化視圖)。
如何擷取物理表的讀取許可權,請參見申請、續期和交還表許可權。
欄位列表
選擇您需要添加的欄位。
說明您可通過切換來源表方式選擇多個來源表中的欄位。
已選擇欄位
添加的欄位將被添加到已選擇欄位。您可對已選擇欄位進行刪除操作。
單擊添加,為維度邏輯表引入某物理表的欄位。
添加至建立欄位地區後,您可以根據業務情況編輯欄位的名稱、資料類型、欄位類別及關聯維度。
從建表語句引入
在上述建立的維度邏輯表的配置頁面,單擊從建表語句引入。
在從建表語句引入對話方塊,填寫建表語句並單擊解析SQL。
在欄位列表選擇您需要的欄位,並單擊添加為維度邏輯表建立欄位。
添加關聯維度
在維度邏輯表的配置頁面,單擊關聯維度列中的
表徵圖,進入編輯模型關係對話方塊。在編輯模型關係對話方塊中,配置參數。
區塊
參數
描述
空值替換值
如果主表(當前維度邏輯表)和需要關聯的維度邏輯表關聯不上,則Dataphin自動對關聯欄位補值為-110。
維度邏輯表
關聯實體、維度邏輯表
選擇您已建立的關聯實體和維度邏輯表。
編輯關聯邏輯
關聯邏輯
預設展示需要關聯維度欄位及關聯的維度邏輯表的主鍵,不支援修改。
維表版本原則
定義主表(當前維度邏輯表)與關聯維度邏輯表的分區,預設使用與當前維度邏輯表相同調度周期。更多說明如下:
使用同周期維度(主表與維表使用同周期分區):主表和關聯維度邏輯表計算時使用相同周期的時間分區。
例如,業務日期是20220101,需要查詢主表的ds=20220101分區的資料,同時關聯維度邏輯表的時間分區也是20220101,則就需要選擇使用同周期維表。
使用最新維表(維表使用最新分區):資料計算時使用最新關聯維度邏輯表的最新分區。
例如,某商品類目經常會調整,10天前是手機類目,今天是電器類目。如果業務上需要按照電器類目重跑10天前的資料,則維表版本原則需要選擇為使用最新維表(維表使用最新分區)。
缺聯策略
缺聯策略用於定義來源主表(左表)中存在的欄位,但在維度邏輯表(右表)中不存在的欄位,即無法關聯的欄位的計算邏輯。您可以選擇保留原始缺聯資料和缺聯資料使用預設值代替:
保留原始缺聯資料: 建立派生指標時,保留左表未經處理資料。
缺聯資料使用預設值代替:主表中的欄位沒有與維度邏輯表關聯上,則使用預設值-110。
編輯維度角色
角色英文名、角色名稱
維度角色具有維度別名作用。多次引用同一維度時不可重名定義,起到角色扮演效果。您需要定義角色英文名和角色名稱:
角色英文名的首碼預設為
dim,自訂部分的命名規則為:包含字母、數字或底線(_)。
不能超過64個字元。
角色名稱的命名規則:
包含中文、數字、字母、底線(_)或短劃線(-)。
不能超過64個字元。
單擊確定。
步驟三:配置普通維度邏輯表計算邏輯
計算邏輯配置頁面用於配置維度邏輯表的來來源資料與主鍵間的映射關係。
單擊來源配置,進入來源配置對話方塊並單擊+添加來來源物件按鈕,配置來源參數。
說明建議不要在過濾條件或自訂SQL中額外設定對事件時間的過濾。
參數
描述
來源類型
支援物理表、自訂SQL、邏輯表三種來源類型。
來源表類型說明:
有主鍵來源表:有主鍵的邏輯表允許配置多個來源, 第一個固定為主來源, 邏輯表的資料總量(行數)由此來源決定。
無主鍵來源表:無主鍵的邏輯表僅允許配置一個來源,。若來源是多個表,請使用自訂SQL預先完成多表的關聯。
說明若您需要配置多個來來源物件,您可單擊添加來來源物件進行新增。
來來源物件
選擇物理表:支援選擇當前租戶下所有具有讀取許可權的物理表(非Dataphin自動產生的物理表)、物理視圖(非參數化視圖)。
如何擷取物理表的讀取許可權,請參見申請、續期和交還表許可權。
選擇自訂SQL:單擊
表徵圖,在編輯框輸入內容,例如:select id, name from project_name_dev.table_name1 t1 join project_name2_dev.table_name2 t2 on t1.id = t2.id選擇邏輯表:支援選擇當前租戶下所有具有讀取許可權的邏輯表。
如何擷取物理表的讀取許可權,請參見申請、續期和交還表許可權。
重要使用邏輯表作為另一個邏輯表的資料來源, 會增加計算邏輯的複雜度和營運難度。
對象別名
自訂來源表別名。例如:t1,t2。
對象描述
請輸入對象的描述資訊。僅1000個字元以內。
過濾條件
自訂SQL的過濾條件。
單擊
表徵圖,在編輯框輸入內容,例如:ds=${bizdate} and condition1=value1。關聯欄位
來來源物件中與邏輯表主鍵相對應的欄位,與主鍵可以做等值關聯。
刪除
主來源不支援刪除。
無主鍵邏輯表,刪除來源將清空欄位的計算邏輯。
單擊確定,完成來源配置。
完成來源配置後, 將來源欄位拖入計算邏輯中,您也可以單擊同名欄位快速映射按鈕,批量將資料來源欄位置入同名的邏輯表欄位的計算邏輯中。
單擊
表徵圖,在編輯框中可以編輯計算邏輯運算式(運算式不支援彙總函式:sum,count,min等),例如:樣本1:
substr(t1.column2, 3, 10)樣本2:
case when t1.column2 != '1' then 'Y' else 'N' end樣本3:
t1.column2 + t2.column1
完成計算邏輯配置後,單擊底部
表徵圖,可校正運算式的有效性。單擊預覽SQL按鈕,可查看計算邏輯SQL。
單擊儲存並下一步。
步驟四:配置約束
基於欄位約束, 系統將在品質模組中為當前邏輯表建立品質規則。您可在此處設定欄位的規則強度,包括強規則和弱規則。更多資訊,請參見資料表品質規則。
說明邏輯表欄位約束只可在此配置規則強度,不支援在品質模組中編輯。
單擊儲存並下一步。
步驟五:配置普通維度邏輯表調度
在調度&參數配置頁面,配置維度邏輯表的資料延遲、調度屬性、調度依賴、調度參數、回合組態。
參數
描述
資料延遲
開啟資料延遲,系統將自動重跑本邏輯表在最大延遲天數周期內的全部資料。詳細說明,請參見配置邏輯表資料延遲。
調度屬性
用於定義維度邏輯表在生產環境的調度方式。您可以通過調度屬性,配置維度邏輯表的調度類型、調度周期、調度邏輯與執行等等。詳情說明,請參見配置邏輯表調度屬性。
上遊依賴
用於定義邏輯表在調度任務中的節點。Dataphin通過各個節點的調度依賴的配置結果,有序地運行商務程序中各個節點,保障業務資料有效、適時地產出。詳情說明,請參見配置邏輯表上遊依賴。
參數配置
參數配置是對代碼中所用的變數進行賦值,從而支援節點調度時,參數變數可以自動被替換為相應的變數值。在調度參數配置頁面,您可以對參數配置進行忽略或轉為全域變數的操作。詳情說明,請參見邏輯表參數配置。
回合組態
您可根據業務情境為該維度邏輯表配置任務級的運行逾時時間和任務運行失敗時的重跑策略,杜絕因計算任務長時間資源佔用造成資源浪費的同時提高計算任務啟動並執行可靠性。詳情說明,請參見邏輯表回合組態。
資源配置
您可為當前邏輯表任務配置調度資源群組,邏輯表任務調度時將佔用該資源群組的資源配額。配置說明,請參見邏輯表資源配置。
單擊儲存並提交。
步驟六:儲存並提交邏輯表
完成普通維度邏輯表配置後,單擊儲存並提交。
系統將對表結構、計算邏輯、調度依賴、運行參數進行配置校正。您可根據未通過的檢查結果,檢查配置資訊並完成配置。
檢查結果全部通過後,填寫提交備忘,並單擊確定並提交。
提交時,Dataphin將進行任務的血緣解析及提交檢查。更多資訊,請參見規範建模任務提交說明。
後續步驟
如果專案的模式為Dev-Prod,則您需要將邏輯表發布至生產環境。具體操作,請參見管理髮布任務。
邏輯表發布至生產環境後,您可在營運中心查看並營運邏輯表任務。具體操作,請參見營運中心。