資料採樣可協助業務人員更好地瞭解資料形態,助力SQL開發。本文為您介紹如何進行採樣配置。
前提條件
需開通資產營運功能才能使用採樣配置。
使用限制
僅支援針對欄位數不超過1500個的資料表進行自動採樣,超過則自動忽略不採樣。
許可權說明
超級管理員、營運管理員及具有採樣配置-管理許可權的自訂全域角色支援管理採樣配置。
操作步驟
在Dataphin首頁的頂部功能表列,選擇治理 > 中繼資料。
在左側導覽列選擇通用配置 > 採樣配置,在採樣配置頁面,您可以為計算源表和資料來源表分別進行採樣配置。
基礎配置
單擊底部編輯按鈕,配置參數。
參數
描述
資料採樣
採樣配置的整體控制開關。
開啟後,才可配置基礎配置、計算源和資料來源,建議檢查計算源和資料來源頁面的自動採樣資料配置是否符合預期。
關閉後,自動採樣和手動採樣均無法觸發,也無法在相關情境中使用採樣資料。您可以選擇同步刪除採樣資料或繼續保留不刪除。
同步刪除:將同步刪除保留的範例資料。
繼續保留不刪除:將無法查看和使用保留的範例資料,但下次重新開啟採樣時可直接使用。
查詢配置
自動採樣觸發情境
配置自動觸發資料採樣查詢的任務類型,支援中繼資料採集、資料探查、安全識別規則執行/標準落標映射規則執行,系統根據最近採樣更新時間和採樣更新策略自動判斷是否需要重新發起新的採樣查詢任務。
資料探查:需開通全域品質或域內品質功能才能使用資料探查。
安全識別規則執行/標準落標映射規則執行:當安全識別規則涉及按內容識別、標準落標映射配置了按識別特徵智能映射時,建議開啟,否則每次識別都將進行臨時資料查詢,可能造成較多計算資源消耗。
自動採樣更新策略
用於控制資料採樣查詢的更新頻率,系統根據最近採樣更新時間(包括自動採樣和手動採樣)和採樣更新策略判斷上述情境是否需要進行採樣查詢,支援每隔固定時間更新一次和不更新。
每隔固定時間更新一次:即最近採樣更新時間 > N天則重新採樣,N取值範圍為1~60天,例如:N為7,在任務執行時,如果距離上次採樣成功超過7天,則重新採樣。
不更新:僅採樣儲存一次,如果採樣成功,則後續不會主動更新資料。
空值補償
針對資料採樣查詢欄位存在空值時處理策略,支援不補償和採樣結果存在部分空欄位時,針對空欄位補償查詢。
不補償:當採樣資料中存在部分欄位全為空白值(Null)時,針對該部分欄位系統不再次進行非空採樣,也不對該欄位進行識別。
採樣結果存在部分空欄位時,針對空欄位補償查詢:當採樣資料中存在部分欄位全為空白值(Null)時,針對該部分欄位系統將再次進行非空採樣,採樣成功後將該查詢結果用於下一次識別;採樣失敗則該欄位不進行識別。指令碼樣本如下:
--第一次採樣查詢tableA的a,b,c三個欄位 select a,b,c from tableA limit 100; --因欄位a前100條資料均為空白值,對欄位a進行第二次採樣查詢 select distinct a from tableName where a is not null limit 100;說明空值補償有助於提升識別準確率,但也會消耗更多計算資源,請根據業務需求合理配置。
儲存配置
採樣儲存
儲存單個欄位採樣的範例值條數,預設100條,支援輸入1~100之間整數。
使用配置
用於資料預覽
可用於資產清單和資產目錄的資料預覽,當資料表已有採樣資料時,優先展示採樣資料,也可手動觸發查詢最新資料;若不存在採樣資料,則會自動觸發資料預覽查詢。
針對每個欄位的採樣資料,系統會隔離儲存區 (Isolated Storage)和排序展示,但不保證行記錄的存在性和正確性。
預覽時將優先校正當前帳號的列級許可權和該欄位脫敏策略配置,僅可查看有查看許可權欄位對應範例資料,但不會基於行級許可權進行資料過濾。
例如:A表filed_b配置了脫敏策略,未經處理資料和範例資料如圖:

用於安全/標準識別
需購買資料安全或資料標準任一功能才展示此配置。當安全識別規則涉及按內容識別、標準落標映射配置了按識別特徵智能映射時,預設使用採樣資料。如果暫無可用資料,則會進行臨時資料查詢。
用於智能應用
若且唯若開通了一個智能應用時展示此配置。您可以在超級X > 智能應用管理 > 智能應用頁面編輯智能應用時進行採樣資料配置。
單擊確定,完成基礎配置。
計算源
配置可開啟自動採樣資料的資料表範圍。
單擊底部編輯按鈕,配置參數。
參數
描述
自動採樣
開啟後,可為計算源表配置自動採樣資料,您可以在基礎配置頁面修改自動採樣的觸發情境。
自動採樣配置
物理表範圍
支援通過專案圈選可開啟自動採樣的物理表及物理視圖範圍,支援選擇全部專案、全部生產專案(Basic及Prod)、指定專案。
全部專案:指所有專案下的物理表和物理視圖(包括當前已建立和後續建立的所有專案)均可開啟自動採樣。
全部生產專案(Basic及Prod):指所有生產專案下的物理表和物理視圖(包括當前已建立和後續建立的所有生產專案)均可開啟自動採樣。
指定專案:選擇需開啟自動採樣的專案,支援多選。
邏輯表範圍
支援通過資料板塊圈選可開啟自動採樣的邏輯表及邏輯視圖範圍,支援選擇全部板塊、全部生產板塊(Basic及Prod)、指定板塊。
全部板塊:指所有板塊下的邏輯表和邏輯視圖(包括當前已建立和後續建立的所有板塊)均可以開啟自動採樣。
全部生產板塊(Basic及Prod):指所有生產板塊下的邏輯表和邏輯視圖(包括當前已建立和後續建立的所有生產板塊)均可開啟自動採樣。
指定板塊:選擇需開啟自動採樣的板塊,支援多選。
採樣執行
執行空間
選擇資料採樣查詢任務執行的計算資源,支援資料所在專案和指定專案。
資料所在專案:在已圈選資料資產的所屬專案中執行。
指定專案:根據已圈選資料資產所屬環境,在對應環境的專案中執行(開發表使用開發專案計算資源,生產表使用生產專案計算資源)。
說明資料採樣查詢會佔用一定的計算資源,建議使用資料資產所屬專案執行。
如果您希望減少對資料所在專案的資源壓力和查詢費用(如選擇單獨的訂用帳戶專案),避免對正常商務專案的幹擾,也可以分配專門的專案資源/隊列用於採樣查詢。
請確保選中專案中計算源配置的帳號有相關採樣資料表的讀取許可權。
並發限流
用於控制同時運行資料採樣查詢任務的數量,預設為16,支援配置1~100之間的整數。
說明並發查詢有助於保障計算叢集穩定性,避免短期內發起大量查詢任務導致系統宕機。
增大並發數會加快採樣查詢任務速度,但對叢集會造成更大壓力,建議結合業務需求合理配置。
掃描會佔用叢集計算資源。
查詢逾時
若資料採樣查詢任務的運行總時間長度(開始運行到結束已耗用時間,不包括資源等待和調度等待時間)超過設定的閾值仍未結束,系統會自動終止共置為失敗。預設為0.5小時,支援設定的時間範圍為0~12小時,最多設定一位小數。
單擊確定,完成計算源表的資料採樣據配置。
資料來源
資料來源頁面為您展示中繼資料已採集到且支援採樣資料的資料來源類型。配置可開啟自動採樣資料的資料來源表範圍。
您可查看資料來源的名稱、類型、任務的最大並發數、自動資料採樣狀態、查詢逾時時間及最新修改時間資訊。
您可根據資料來源名稱進行搜尋,也可根據資料來源類型進行篩選。
您可對目標資料來源配置採樣資料,單擊操作列下的編輯表徵圖,在採樣配置對話方塊中,配置參數。
參數
描述
自動採樣範圍
開發/生產環境
僅資料來源配置了對應環境的採集任務時支援配置。可分別配置生產環境和開發環境的自動採樣範圍。開啟後,您可以根據不同的資料來源類型配置不同的任務採集範圍,詳情請參見採集範圍。
採樣執行
並發限流
用於控制同時運行資料採樣查詢任務的數量,預設為16,支援配置1~100之間的整數。
說明並發查詢有助於保障計算叢集穩定性,避免短期內發起大量查詢任務導致系統宕機。
增大並發數會加快採樣查詢任務速度,但對叢集會造成更大壓力,建議結合業務需求合理配置。
掃描會佔用叢集計算資源。
查詢逾時
若資料採樣查詢任務的運行總時間長度(開始運行到結束已耗用時間,不包括資源等待和調度等待時間)超過設定的閾值仍未結束,系統會自動終止共置為失敗。預設為0.5小時,支援設定的時間範圍為0~12小時,最多設定一位小數。
單擊確定,完成資料來源表的資料採樣配置。