在資料同步到Dataphin前,對資料進行探查,可提前瞭解資料的分布、空值等資訊,便於更加規範使用資料。本文為您介紹如何進行資料探查配置。
前提條件
需購買資料品質才可使用資料探查功能。
使用限制
部分資料來源類型的表支援進行資料探查,支援的資料來源請參見不同資料來源支援的探查分區及探查範圍。
當計算引擎為AnalyticDB for PostgreSQL、ArgoDB、StarRocks時,不支援對相關計算源表進行資料探查。
許可權說明
超級管理員、營運管理員和具有探查及分析-資料探查配置的自訂全域角支援資料探查配置。
資料探查配置
在Dataphin首頁的頂部功能表列,選擇治理 > 中繼資料。
在左側導覽列選擇通用配置 > 探查及分析,在資料探查及分析頁面,您可以為計算源表和資料來源表分別進行資料探查配置。
基礎配置
針對所有資料來源類型探查記錄的儲存策略。
單擊底部的編輯按鈕,配置參數。
探查記錄:支援兩種方式:
僅保留最新探查記錄及報告:
如果最近一次運行成功並產生探查報告,會清空歷史所有運行記錄,包括運行成功和失敗的。
如果最近一次運行失敗,會保留該失敗記錄以及歷史最近一次運行成功的探查記錄和對應的報告,同時清空歷史其他運行失敗的失敗記錄;如果歷史沒有運行成功的記錄,僅保留本次運行失敗的記錄。
保留最近n天探查記錄:保留最近n天所有的探查記錄及對應的探查報告,包括運行成功和失敗的,可在探查記錄列表統一查看。預設配置為15天,可配置的時間範圍為1~90天之間的整數。
單擊確定,完成基礎配置。
計算源
配置可開啟自動資料探查配置的資料表範圍。
重要資料探查會消耗資料表所在專案的計算源資源,請結合實際業務情況,合理配置。
單擊底部的編輯按鈕,配置參數。
參數
描述
並發限流
用於控制同時啟動並執行任務數量,包括資料探查和指標分析任務。系統支援最小並發運行任務數為1,預設為5。支援輸入1~5之間的整數。
進階參數配置
開啟後,支援針對全域探查任務設定set參數,以便對探查任務和指標分析任務運行進行調優或適配某些計算引擎的特殊設定。
單擊參數配置框的參考樣本,可查看並複製參考語句。
單擊典型情境說明,可查看常見的探查任務運行報錯樣本以及如何通過參數配置的解決方案,詳情請參見典型情境說明。
探查逾時
用於控制單個探查任務的最長已耗用時間,防止運行過久持續佔用資源影響其他任務或功能。如果單個探查任務運行時間長度超過設定的上限,則任務會被自動置為失敗。支援時間範圍為0~24小時(不包括0),支援設定最多一位小數。
物理表範圍
支援通過專案圈選可開啟自動探查的物理表及物理視圖範圍,支援選擇全部專案、全部生產專案(Basic及Prod)、指定專案。
全部專案:指所有專案下的物理表和物理視圖(包括當前已建立和後續建立的所有專案)均可開啟自動探查。
全部生產專案(Basic及Prod):指所有生產專案下的物理表和物理視圖(包括當前已建立和後續建立的所有生產專案)均可開啟自動探查。
指定專案:選擇可開啟自動探查的專案,支援多選。
邏輯表範圍
支援通過資料板塊圈選可開啟自動探查的邏輯表及邏輯視圖範圍,支援選擇全部板塊、全部生產板塊(Basic及Prod)、指定板塊。
全部板塊:指所有板塊下的邏輯表和邏輯視圖(包括當前已建立和後續建立的所有板塊)均可以開啟自動探查。
全部生產板塊(Basic及Prod):指所有生產板塊下的邏輯表和邏輯視圖(包括當前已建立和後續建立的所有生產板塊)均可開啟自動探查。
指定板塊:選擇可開啟自動探查的板塊,支援多選。
單擊確定,完成計算源表資料探查配置。
說明若支援開啟自動探查的資料表範圍變更,將自動關閉不再支援的資料表的自動探查開關,正在探查中的任務不受影響。
資料來源
資料來源頁面為您展示中繼資料已採集到且支援資料來源探查及指標分析的資料來源類型。配置可開啟自動資料探查配置的資料來源表範圍。
您可查看資料來源的名稱、類型、任務的最大並發數、資料探查狀態、探查逾時時間及最新修改時間資訊。
您可根據資料來源名稱進行搜尋,也可根據資料來源類型進行篩選。
您可對目標資料來源配置資料探查,單擊操作列下的編輯表徵圖,在管控設定對話方塊中,配置參數。
參數
描述
並發設定
並發限流
用於控制同時啟動並執行資料來源表探查任務數量。系統支援最小並發運行任務數為1,預設為5。支援輸入1~5之間的整數。
進階參數配置
開啟後,支援針對全域探查任務設定set參數,以便對資料來源表探查任務和指標分析任務運行進行調優或適配某些計算引擎的特殊設定。
單擊參數配置框的參考樣本,可查看並複製參考語句。
單擊典型情境說明,可查看常見的探查任務運行報錯樣本以及如何通過參數配置的解決方案,詳情請參見典型情境說明。
資料探查
資料探查
預設關閉,開啟後,支援資料探查的資料來源表可進行資料探查。
探查逾時:當資料探查開啟時支援配置。用於控制單個探查任務的最長已耗用時間,防止運行過久持續佔用資源影響其他任務或功能。如果單個探查任務運行時間長度超過設定的上限,則任務會被自動置為失敗。支援時間範圍為0~24小時(不包括0),支援設定最多一位小數。
單擊確定,完成資料來源表資料探查配置。
後續步驟
完成資料探查配置後,您可以對資料表執行自動探查配置,更多資訊,請參見建立資料探查任務。