配置識別規則的掃描方式與血緣自動繼承-智能資料建設與治理 Dataphin-阿里雲 - Dataphin

識別規則建立完成後，您可根據業務情況進行調整識別規則的掃描方式，支援定時掃描、手動掃描、即時掃描，此外，您也可配置基於血緣關係自動繼承上遊的分類分級，通過繼承任務產生識別結果。本文為您介紹如何配置識別規則及識別結果的產生方式。

前提條件

已建立識別規則。如需建立，請參見建立及管理識別規則。

使用限制

識別規則自動掃描預設不自動掃描視圖對象，您可以在規則回合組態中開啟掃描視圖；也可以手動添加或大量匯入視圖的識別結果。

許可權說明

安全性系統管理員支援建立及管理識別規則、修改規則回合組態及開啟自動繼承配置。

識別規則回合組態

在Dataphin首頁，在頂部功能表列選擇治理 > 資料安全。
在左側導覽列選擇資料識別 > 識別規則，在識別規則頁面，單擊建立識別規則後的下拉式箭頭，選擇規則回合組態。

在規則回合組態對話方塊中，配置參數。

參數		描述
掃描配置	調度周期	識別規則預設每天調度一次，可根據業務情況進行調整調度周期。調大周期可以減少資源消耗，但會有敏感性資料識別滯後的風險。支援選擇日、周和月調度周期。當系統時區（即使用者中心的時區）與調度時區（即管理中心 > 系統設定 > 基礎設定中所配置的時區）不一致時，規則將根據系統時區進行執行。
	計算源表即時掃描	預設關閉。開啟後，若建立表、表結構變更（增加欄位、欄位重新命名、表重新命名）或者表資料變更（通過Dataphin執行insert、delete、update）時，則會對錶執行一次掃描，並針對敏感欄位進行打標。說明即時掃描開啟後，能更及時的發現敏感性資料並對其進行保護，但可能會增加計算資源的消耗，請您合理評估。資料來源表不支援即時掃描。
	掃描範圍	選擇識別規則的掃描範圍，預設選中過濾視圖，支援切換為包含視圖。說明大量匯入和手動添加識別結果不受此處配置影響，可直接添加視圖對象的識別結果。掃描範圍選取包含視圖，基於規則自動掃描和基於血緣自動繼承兩種掃描方式將對視圖對象進行分類分級打標。視圖對象包括物理視圖、邏輯視圖、資料來源檢視、資料來源物化視圖、物化視圖。
	並發運行數	用於控制全域同時啟動並執行識別任務數量，包括標準模組按照識別特徵智能映射的落標映射規則任務、安全模組的定時掃描、手動掃描、即時掃描、血緣更新觸發的自動繼承掃描任務，預設為16，支援配置1~100之間的正整數。說明僅當自動觸發採樣查詢未開啟時生效。增大並行度可加快掃描進度，但會佔用更多的叢集計算資源，為保證系統穩定性，請您根據業務需求進行合理配置。
採樣配置說明針對自動採樣、未開啟自動採樣但需按內容識別時觸發的臨時採樣查詢均生效。	自動採樣	當治理 > 中繼資料 > 採樣配置開啟了資料採樣且觸發情境為安全識別規則運行/標準落標映射規則執行時為開啟狀態，否則為關閉。開啟後，自動資料採樣根據中繼資料-採樣配置進行資料採樣。識別規則執行時，系統會先檢測資料範圍中有無範例值決定是否需要資料採樣，再根據採樣配置的自動採樣更新策略進行自動採樣。說明當安全識別規則涉及按內容識別、標準落標映射配置了按識別特徵智能映射時，建議開啟，避免資料時效性落後或使用臨時資料查詢造成額外資源消耗。當自動採樣開啟時，資料來源表自動觸發資料採樣任務。
	計算源表查詢空間	當沒有可用的採樣資料，需進行臨時資料查詢以進行內容識別時，需為臨時資料查詢任務選擇執行的計算資源，您可以在治理 > 中繼資料 > 採樣配置 > 計算源中修改配置。說明臨時資料查詢任務會佔用一定的計算資源，正常情況下選擇資料表所在的專案即可。如果您希望減少對資料所在專案的資源壓力和查詢費用（如選擇單獨的訂用帳戶專案），避免對正常商務專案的幹擾，也可以分配專門的專案資源/隊列用於臨時資料查詢。請確保選中專案中計算源配置的帳號有相關資料表的讀取許可權。資料來源表的臨時查詢任務僅可在所屬資料來源中運行。當計算引擎E-MapReduce 3.x、E-MapReduce 5.x、CDH 5.x、CDH 6.x、FusionInsight 8.x、亞信DP 5.3、Cloudera Data Platform 7.x、Lindorm（計算引擎）、Amazon EMR、星環TDH且資料表為湖表時，專案關聯的計算源需開啟Spark任務，才能進行資料掃描；當資料表的儲存格式為Kudu時，專案關聯的計算源需開啟Impala任務，才能進行資料掃描。
	掃描禁用期	在指定的時間段內，自動觸發的資料採樣查詢任務不會發起，將直接置為失敗，避免佔用較多的計算資源影響生產環境任務的正常運行，以保障線上資料任務的穩定性。您可以在治理 > 中繼資料 > 採樣配置 > 計算源中修改配置。

說明

此處規則回合組態的並發運行數、掃描禁用期、採樣配置、資源配置和資料標準模組的特徵掃描配置共用，任何一個配置修改將同步影響另外一處的配置。
全域特徵識別任務包括標準和安全模組的特徵識別任務。
- 資料標準：按照識別特徵智能匹配的落標映射規則任務（包括手動、定時執行的規則）。
- 資產安全：包括定時掃描、手動掃描、即時掃描以及基於血緣繼承的識別任務。

單擊確定，完成識別規則調度周期的配置。

自動繼承配置

在識別規則頁面，單擊自動繼承配置按鈕。

在基於血緣自動繼承配置對話方塊中，配置參數。

參數	描述
自動繼承	預設關閉，開啟後配置血緣自動繼承的情境及規則。說明自動繼承開啟後，僅基於直接血緣繼承。下遊會根據欄位血緣關係自動繼承直接上遊欄位的敏感等級，同時根據預設脫敏規則的配置，以實現對新增資料的自動保護，減少手動設定成本，也能更大程度上保證關聯資料識別結果一致性和相關性。
繼承規則	當繼承結果僅有一個時，支援選擇繼承分類+分級、僅繼承分級，不繼承分類。繼承分類+分級：可實現對該欄位更精準的命中脫敏規則。僅繼承分級，不繼承分類：繼承直接上遊欄位的資料分級，後續可在識別記錄中手動指定資料分類。當繼承結果僅有多個時，支援選擇僅繼承最高分級，不繼承分類、繼承最高分級+最高分級來源欄位對應的分類。僅繼承最高分級，不繼承分類：繼承直接上遊欄位的最高資料分級，後續可在識別記錄中手動指定資料分類。繼承最高分級+最高分級來源欄位對應的分類：若多個欄位敏感等級相同但分類不同，則按照分類優先順序>識別記錄的更新時間>分類修改時間決定分類結果。
觸發情境	支援選擇識別規則運行、血緣關係更新。識別規則運行：針對掃描對象的直接下遊，根據本次掃描對象的識別結果計算繼承結果。說明每次識別規則運行時，針對規則圈選的對象，按照欄位血緣關係查詢下遊欄位並根據規則配置產生自動繼承結果。如果上遊欄位不同，但是繼承結果對應的分類分級相同，則會更新繼承結果的來源欄位；如果產生新的分類分級繼承結果，則會新增一條對應的記錄。血緣關係更新：針對每一條更新血緣的輸出欄位，根據輸入欄位計算繼承結果。說明每次任務提交至開發環境或發布至生產環境時，根據輸出表查詢輸入表並擷取輸入欄位的血緣關係，按照規則配置產生自動繼承結果。如果上遊欄位不同，但是繼承結果對應的分類分級相同，則會更新繼承結果的來源欄位；如果產生新的分類分級繼承結果，則會新增一條對應的記錄。需至少選擇一種繼承情境。

說明

針對未指定分類的識別結果，您可以根據繼承來源手動指定適合的識別結果。建議您配置預設脫敏策略，保證自動繼承分級的結果資料可以命中脫敏演算法，更好保障資料安全。
判斷最終生效的識別結果優先順序從高到低為：手動執行>自動識別>自動血緣繼承。

單擊確定，完成基於血緣自動繼承配置。