資料探查可以協助您快速瞭解資料概況,提前評估資料可用性和潛在風險,您可對資料表進行全量探查、抽樣探查。本文為您介紹如何建立資料探查任務。
前提條件
需開通資料品質功能模組才可使用資料探查功能。V5.2.1版本之前開通域內品質功能模組才能使用資料探查功能,V5.2.1及之後版本,開通域內品質或全域品質任一功能模組均可使用資料探查功能。
使用限制
當資料表類型為元表、鏡像表、標籤邏輯表時,不支援使用資料探查功能。
當資料表的儲存類型為Hologres或Kudu時,不支援使用資料探查功能。
每次探查可選擇的欄位最多不超過1500個。
資料探查支援的資料來源和計算引擎請參見不同資料來源支援的探查分區及探查範圍。
當資料來源為Hive且資料表為湖表時,需將當前表所在的計算源開啟Spark任務,才能進行資料探查。
如果選擇的探查欄位或探查情境較多,可能會消耗資料來源表所在資料來源、資料表所在專案或板塊較多的計算源資源,影響即席查詢或周期任務調度等功能,建議您結合業務情境選擇單次探查的欄位個數或任務的探查情境。
許可權說明
超級管理員和營運管理員支援建立及管理所有資料表的資料探查;當前資料表負責人僅可建立及管理自己所負責表的資料探查。
專案系統管理員支援建立及管理所負責專案下物理表的資料探查。
板塊管理員支援建立及管理所負責板塊下邏輯表的資料探查。
使用情境
整合任務中來源表的核心欄位為JSON類型,需要使用get_json_object函數提取關鍵字段資訊後再同步到目標資料表。您可以為目標表建立一個自動資料探查任務,指定在該整合任務運行成功後觸發探查,校正該核心欄位的解析結果是否符合預期(如是否存在空值、欄位分布是否符合預期),避免影響下遊業務使用。
配置手動資料探查
在Dataphin首頁的頂部功能表列,選擇治理 > 資產清單。
選擇Dataphin資產,單擊表頁簽,您可以根據表類型篩選物理表、邏輯表、物理視圖、邏輯視圖、物化視圖或選擇其他系統資產,進入列表。
在列表中,單擊目標表的名稱或操作列下的
表徵圖,進入對象詳情頁面。在對象詳情頁面,單擊資料探查頁簽,再單擊發起手動探查按鈕,進入建立手動資料探查對話方塊。
同一張表如果已經有正在運行中或等待中的手動探查任務,您可終止探查後再重新發起。
在建立手動資料探查對話方塊中,配置參數。
探查配置
參數
描述
資料表
為您展示當前資產的名稱,不可修改。
探查分區
僅分區表需配置探查的分區範圍。您可快捷選擇已存在的指定分區(同資料表資產詳情頁面的明細資訊-分區資訊頁簽已產生的分區),也可手動填寫運算式一次探查多個分區,多級分區之間用
and串連。例如:ds > '20230101' and (age >10 or age < 20) and city in ('beijing', 'hangzhou')。如果有多級分區,則至少指定一級分區,分區運算式詳情請參見分區運算式介紹。
探查內容
選擇需探查的欄位以及對應的探查情境。
空值統計:統計欄位值為Null值的記錄數,所有資料類型均支援。
數值型:額外統計0值記錄數。
文本型:額外統計Null 字元串記錄數。
欄位值分布:對欄位值的分布情況進行統計,並產生欄位值分布圖,所有資料類型均支援。
數值型:統計該欄位已選記錄的最大值(Max)、最小值(Min)、平均值(Avg)、Null值記錄數、唯一值記錄數、標準差、25%分位元、中位元、75%分位元。
文本型:統計該欄位已選記錄的最大字元長度、最小字元長度、平均字元長度、Null值記錄數、唯一值記錄數。
說明當計算引擎為星環TDH 6.x時,char的長度(length)擷取的是該欄位類型定義的長度,而不是實際長度。例如:欄位
name (char 10),其中,只儲存了name4個字元,但是,length函數擷取返回的字串長度為10,而不是4。當計算引擎為其他類型時,char的長度(length)擷取的是該欄位類型的實際長度,而不是欄位類型定義的長度。例如:欄位
name (char 10),其中,只儲存了name4個字元,但是,length函數擷取返回的字串長度為4,而不是10。日期時間型:統計該欄位已選記錄的最大值(Max)、最小值(Min)、Null值記錄數、唯一值記錄數。
布爾型:統計該欄位的Null值記錄數。
唯一值統計:統計該欄位的唯一值記錄數及重複次數最高的5個欄位值。布爾型不支援唯一值記錄數統計。
資料過濾
開啟後,可在代碼框中配置資料過濾的指令碼。例如:
city = 'hangzhou'。探查範圍
用於設定需要探查記錄數。支援全部記錄、隨機抽樣n條記錄、百分比抽樣n%記錄。
全部記錄:已選欄位指定分區內的所有記錄均參與探查,適用於需要對全量資料進行探查的情境,可以更準確地反饋資料情況;如果記錄數較多,可能會運行較長時間,消耗較多資源。
隨機抽樣n條記錄:從已選欄位指定分區內隨機抽取n條記錄進行探查。若可探查的總記錄數小於抽樣數,則返回全部記錄。最多抽樣10000條記錄。支援輸入1~10000之間的整數。
百分比抽樣n%記錄:從已選欄位指定分區內隨機抽樣n%的記錄進行探查,非精確值。
說明僅計算引擎為MaxCompute時支持度百分比抽樣。
選擇隨機抽樣或百分比抽樣時,不同欄位之間及同一個欄位不同探查情境之間的抽樣結果可能不同,且探查表記錄數越少,結果存在差異的可能性越大。
不同資料來源支援的探查範圍請參見不同資料來源支援的探查分區及探查範圍。
探查結果
此處配置影響在資產清單是否可見探查結果。支援給不同資料表配置探查報告的查看許可權,以便更好地管控敏感性資料。支援2種配置方式:
公開:有許可權查看該資料表詳情頁的使用者均可查看探查報告。
僅管理員和負責人可見:支援超級管理員、營運管理員、當前資料表所在專案系統管理員及板塊的管理員、當前資料表負責人、當前資料來源表的維護人員查看。
SQL預覽
可查看基於當前探查配置產生的探查SQL,便於瞭解更多探查資訊。支援切換SQL進行查看。
系統為最佳化探查任務和保障系統的穩定性,同時為了提升探查效率,根據已勾選的探查欄位及探查情境將探查語句自動拆分為多個SQL執行。

單擊確定,完成手動資料探查配置並發起探查。
配置自動資料探查
單擊配置自動探查按鈕,進入自動探查配置對話方塊。
在自動探查配置對話方塊,配置參數。
探查配置
參數
描述
自動探查
預設關閉,您可開啟並進行自動探查配置,若當前表無法開啟自動探查,您可聯絡營運管理員開啟相關配置,詳情請參見資料探查全域配置。
說明若之前開啟,關閉後不會產生新的探查記錄,正在執行中的探查任務不受影響。
若之前已配置探查任務,修改後已產生或正在執行中的探查任務不受影響。
資料表
為您展示當前資產的名稱,不可修改。
探查分區
僅分區表需配置探查的分區範圍。支援選擇最新分區和指定分區。
最新分區:系統為您擷取治理 > 資產清單下定時擷取的分區資料的最新值(同資料表資產詳情頁面的明細資訊-分區資訊頁簽已產生的分區),可能與表實際最新分區有差異。
指定分區:您可手動填寫運算式一次探查多個分區,多級分區之間用
and串連。例如:ds > '20230101' and (age >10 or age < 20) and city in ('beijing', 'hangzhou')。也可快捷選擇系統內建的分區運算式。更多資訊,詳情請參見分區運算式介紹。說明支援跨分區探查,分區數越多已耗用時間越長,為最佳化資源請避免跨過多分區。
如果有多級分區,則至少指定一級分區。
探查頻率
用於設定探查任務的調度情境,支援2種探查方式:
定時探查:按照設定的時間,周期性地對資料進行探查。調度周期包括日、周、月三種。
指定任務運行成功後探查:選擇的資料表在運行成功後,會觸發當前表的資料探查任務,支援選擇生產環境下日、周、月調度的指令碼任務。
說明當選中任務空跑調度時不會觸發資料探查。
探查內容
配置方式與手動探查一致,詳情請參見探查配置。
資料過濾
探查範圍
探查結果
SQL預覽
可查看基於當前探查配置產生的探查SQL,便於瞭解更多探查資訊。詳情請參見手動探查的SQL預覽。
單擊確定,完成自動探查配置。
說明當部分專案或板塊下開啟自動探查的資料表範圍變更,並且刪除資料表之前已經開啟了資料探查配置,移除資料表後將自動關閉所有相關資料表的自動探查,正在探查中和已產生的任務不受影響。
後續說明
探查任務運行結束後,您可查看不同欄位資料類型對應地結果展示。更多資訊,請參見查看資料探查報告及探查記錄。