全部產品
Search
文件中心

DataWorks:配置資料識別規則並執行識別任務

更新時間:Dec 23, 2025

資料保護傘基于敏感欄位類型來配置敏感性資料識別規則,規則配置完成後,即可用於識別租戶內相應類型的敏感性資料。DataWorks為您提供了多種內建敏感欄位類型及識別規則,若內建規則不滿足您的業務需要,您也可自訂敏感欄位類型及識別規則。本文為您介紹如何建立敏感欄位類型並配置資料識別規則。

背景資訊

DataWorks支援您按照資料的敏感層級和所屬分類定義資料識別規則,協助您識別組織內的敏感性資料,對於識別結果不準確的資料,您可以通過查看敏感性資料識別結果並手動修正,並在敏感性資料概況模組為您展示最近的通過資料識別規則命中的、按照專案細分的全部敏感欄位分布情況,資料識別規則的使用邏輯如下圖所示。

image

進入資料識別規則頁面

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資訊安全中心,在右側頁面中單擊進入資訊安全中心

  2. 單擊左側導覽列的資料使用安全 > 敏感性資料管理,單擊立即體驗,進入資料保護傘。

    說明
    • 若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。

    • 若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。進入資料使用安全 > 敏感性資料管理,在頁面彈窗內,首次需選擇資料保護傘,授權後才可使用保護傘的相關功能。

  1. 單擊左側導覽列的規則配置 > 敏感性資料識別,進入資料識別規則頁面。

步驟一:配置敏感欄位所屬分類分級

敏感欄位類型需歸屬於某個資料分類下並定義相應的敏感層級。因此,新增敏感欄位類型並配置敏感性資料識別規則前,您需先完成敏感性資料分類分級配置。

  • 資料保護傘為您提供了內建的分類分級模板,該模板包含4類分級和4大類分類,您可直接使用。DataWorks支援編輯原內建模板中的分類分級,或自訂新的分類分級。分級最多支援定義10級;分類支援自訂多層分類、子分類及分類中包含的敏感欄位類型相關資訊。

  • 敏感欄位分級需在規則配置 > 資料分類分級頁面進行。

    • 資料分類分級頁面會展示預設的內建分類分級模板,您可單擊模板後的image表徵圖,進行模板名稱、描述資訊、分級數量修改等操作。

  • 敏感欄位分類需在規則配置 > 敏感性資料識別頁面進行。

    • 如果您是首次使用資料保護傘的新使用者,進入資料識別規則頁面後,會在左側地區展示內建分類分級模板的預設分類,您可輸入分類名稱進行搜尋;也可單擊分類名稱後的image表徵圖,執行添加同級分類添加子分類重新命名刪除分類等操作。

    • 如果您是已使用過資料保護傘的老使用者,進入資料識別規則頁面後,您可在左側地區按需建立資料分類,至多可建立4類。

說明
  • 分類名稱必須唯一,僅支援中英文、數字,長度限制1~30個字元。

  • 刪除分類時,請先確認該分類下是否有發行的敏感欄位識別規則。如果有,請將該分類下全部規則下架後再刪除。詳情請參見管理資料識別規則

  • 敏感性資料分級配置,請參見配置敏感性資料分類分級

步驟二:配置敏感性資料識別規則

敏感性資料識別規則需基于敏感欄位類型配置,本文以新增敏感欄位類型並配置資料識別規則為例,介紹配置詳情。您也可基於平台內建的敏感欄位類型配置資料識別規則。

  1. 在資料識別規則頁面,單擊右上方的+敏感欄位類型,新增敏感欄位類型。

  2. 配置敏感欄位類型的基本資料。

    1. 基本資料頁簽,配置敏感欄位的類型、分類分級等資訊。c4d5ddbe9d6dd319096ed9dc93957d61

      主要參數說明如下。

      參數

      描述

      敏感欄位類型

      自訂敏感欄位類型的名稱,例如:姓名、社會安全號碼、手機號等。名稱必須唯一。

      所屬分類

      選擇敏感欄位類型所屬的分類。若現有分類不滿足需求,請進入資料分類分級頁面進行設定,詳情請參見配置敏感性資料分類分級

      所屬分級

      選擇敏感欄位類型所屬的層級,數字越大,敏感層級越高。若現有分級不滿足需求,請進入資料分類分級頁面進行設定,詳情請參見配置敏感性資料分類分級

    2. 單擊下一步

  3. 配置敏感欄位類型的識別規則。

    規則配置頁簽,配置敏感欄位識別規則及規則的命中條件,並測試規則準確性。image

    參數

    描述

    命中規則

    在右側下拉式清單中選擇識別規則的命中條件:

    • 滿足任一規則:滿足資料內容識別欄位名稱識別中的任何一個條件,即可命中識別規則。

    • 滿足全部規則:需同時滿足資料內容識別欄位名稱識別的所有條件,才可命中識別規則。

    說明

    命中規則僅對資料內容識別欄位名稱識別規則生效。

    資料內容識別

    識別的資訊為欄位的資料內容(即欄位的取值)。例如,name欄位取值為張三,則規則將識別張三。

    說明

    僅DataWorks專業版及以上版本,才可使用內容掃描功能。若您使用的是低版本的DataWorks,請升級至專業版及以上版本。升級詳情,請參見軟體版本選擇與計費

    根據規則類型定義敏感性資料識別規則的內容,用於匹配敏感性資料文本。規則類型共4種,具體如下:

    • Regex:輸入識別規則的Regex,並輸入測試資料,測試識別規則的準確性。

    • 內建識別規則:選擇所需內建識別規則,並輸入測試資料,測試識別規則的準確性。

      說明

      僅企業版可選擇內建識別規則

    • 樣本庫:選擇已配置的規則樣本,並輸入測試資料,測試識別規則的準確性。樣本配置,請參見通過樣本庫識別

    • 自產生模型:選擇自訂的規則模型,並輸入測試資料,測試識別規則的準確性。自產生模型配置,請參見通過自訂模型識別

      說明

      僅MaxCompute引擎支援選擇自產生模型規則。僅DataWorks企業版才可使用自產生模型

    欄位名稱識別

    識別的資訊為欄位的名稱。例如,name欄位取值為張三,則規則將識別name

    輸入需要識別為敏感性資料的欄位,支援多個欄位匹配,各欄位間為關係。不同資料來源的輸入格式如下:

    • EMR、CDH、MaxCompute:project.table.column

    • Hologres:instance_id.project.table.column

    輸入格式中,任意一段都可使用*作為萬用字元。例如:

    • a.b.*:表示a專案空間的b表中所有欄位都會被識別為敏感性資料。

    • ab*.c*.salary:表示ab開頭的專案中,c開頭的表的所有salary欄位都會被識別為敏感性資料。

    • *cd.ef*.sa*ry :表示cd結尾的專案下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被識別為敏感性資料。

    欄位注釋識別

    識別的資訊為欄位注釋。例如,配置手機號類型敏感欄位對應的欄位注釋為手機號、連絡方式。當識別到某資料的注釋資訊包含連絡方式時,該資料將被識別為手機號。

    在輸入框中輸入欄位注釋,字元長度0~100,字元不限,可添加多個輸入框,最多10個。

    欄位排除

    在輸入框中輸入需要排除的欄位,符合欄位排除規則的欄位將不會被該識別規則命中。支援多個欄位匹配,各欄位間為關係。不同資料來源的輸入格式如下:

    • EMR、CDH、MaxCompute:project.table.column

    • Hologres:instance_id.project.table.column

    輸入格式中,任意一段都可使用*作為萬用字元。例如:

    • a.b.*:表示a專案空間的b表中所有欄位都會被識別為敏感性資料。

    • ab*.c*.salary:表示ab開頭的專案中,c開頭的表的所有salary欄位都會被識別為敏感性資料。

    • *cd.ef*.sa*ry :表示cd結尾的專案下,ef開頭的表中,所有以sa開頭、ry結尾的欄位都會被識別為敏感性資料。

    命中率配置

    用於自訂規則命中率,即配置一列資料中的非空資料,符合資料內容識別條件的資料佔比超過多少時(例如,50%),認為命中該識別規則。預設為50%。

    命中率的計算公式為:100%*該列中命中識別規則的資料條數/該列資料的總條數

    說明

    命中率僅對資料內容識別規則生效。

  4. 發布資料識別規則。

    單擊發布使用,即可發布當前資料識別規則。規則發布後,才可使用該規則在識別任務中識別相應敏感性資料。

說明
  • 若您暫時無需使用該規則,也可單擊儲存草稿,儲存資料識別規則。

  • 若某列資料命中多個敏感欄位類型的識別規則,規則的生效順序如下:

    • 當這些敏感欄位類型的命中條件個數相同時,識別順序為欄位名稱識別 > 資料內容識別 > 欄位注釋識別

    • 當這些敏感欄位類型的命中條件個數和類型都相同時,優先命中分級等級高的敏感欄位類型識別規則。

步驟三:授權並啟動敏感性資料識別任務

敏感性資料識別規則配置完成後,您需要授權並啟動敏感性資料識別任務,啟動後,平台才會基于敏感資料識別規則識別租戶內的敏感性資料。

  1. 為敏感性資料識別任務授權。

    初次開機敏感性資料識別任務,需單擊敏感性資料識別頁面左上方的開通授權,按照介面指引授權。

    說明

    敏感性資料識別任務啟動後,單擊敏感性資料識別頁面右上方的授權記錄,即可查看授權詳情。

  2. 啟動敏感性資料識別任務。

    1. 配置敏感性資料識別任務。

      配置敏感性資料識別任務時,需配置任務類型、掃描方式及範圍,可配置即時任務、定時任務或手動建立識別任務。

      1. 選擇配置即時任務。

        image

        參數說明如下。

        參數

        描述

        識別帳號

        配置通過主帳號或某個子帳號抽樣及掃描資料。通過選擇的當前帳號對資料進行抽樣和掃描,帳號許可權不同,可抽樣的資料範圍會有所不同。

        說明

        通過子帳號進行識別,使用的子帳號需要先獲得MaxCompute專案空間的許可權。

        即時識別

        僅ODPS支援即時識別,當ODPS中繼資料發生變更(新增表、欄位、欄位變更),資料保護傘將針對變更的中繼資料自動啟動敏感性資料識別。

        數傘即時擷取中繼資料變更資訊。如果是新增表或欄位引起的中繼資料變更,新的表及欄位可能暫無內容,因此僅會使用中繼資料進行敏感性資料識別。

      1. 選擇配置定時任務。image參數說明如下。

        參數

        描述

        任務執行

        需手動開啟任務執行。

        後續識別任務掃描及更新策略

        含兩種選擇:

        • 僅針對發生變更的規則,以及變更規則受影響的資料及無結果資料,重新掃描並更新結果。

        • 全部資料重新掃描並結果全覆蓋。

        可勾選手動修正結果不覆蓋。

        識別帳號

        配置通過主帳號或某個子帳號抽樣及掃描資料。通過選擇的當前帳號對資料進行抽樣和掃描,帳號的許可權不同,可抽樣及掃描的資料範圍存在差異。

        說明

        通過子帳號進行抽樣及掃描,使用的子帳號需要先獲得MaxCompute專案空間的許可權。

        內容識別

        配置敏感性資料識別規則中的內容識別中繼資料識別是否生效。勾選後,相應規則才會生效。

        說明

        若不勾選內容識別,則資料保護傘將不會對資料進行抽樣和掃描,敏感性資料識別規則中的內容識別規則將不生效,但是欄位名稱、欄位注釋規則依然生效。

        抽樣數量

        配置內容識別的抽樣數量,建議數量大於100。

        當勾選內容識別後,需配置該參數。

        掃描頻次掃描時間

        定義定時任務的掃描周期。

        僅當任務類型選擇定時任務時,需配置該參數。

        掃描頻次可選一周一次一天一次。一周一次自訂範圍為周一至周五。時間範圍為0:00-23:59。

        掃描範圍

        配置敏感性資料識別任務掃描的資料範圍。

        1. 全量:掃描當前租戶所授權帳號下的全部資料。

        2. 部分資料:可選擇掃描指定專案空間下的表資料。

          說明
          1. 專案空間範圍預設為全部資料引擎的所有專案空間。

          2. 目前支援選擇掃描ODPS、EMR、HOLO專案的指定表的資料。

            1. 表名總長度為0~100,字元不限,不填代表掃描全部表。

            2. 支援.*萬用字元。例如,.*name表示以name為尾碼;private.*表示以private為首碼。

            3. 多個表名或欄位名請用英文逗號(,)分隔。

          3. 選擇部分資料,即可添加多重專案空間/資料庫掃描範圍,最終掃描範圍取多個範圍的並集。

            1. 使用者需在頁面左側手動選擇專案空間。

            2. 使用者選中專案空間後,頁面右側會展示該專案空間/資料庫範圍內的資料表,可手動勾選或一鍵全選,預設選擇該資料庫範圍內的所有資料表。

            3. 專案空間/資料庫範圍、資料表均支援關鍵字搜尋。資料表關鍵字搜尋功能,需先選擇專案空間,在指定專案空間內進行搜尋。

      2. 選擇配置手動任務,即建立識別任務。image參數說明如下。

        參數

        描述

        識別任務掃描及更新策略

        含兩種選擇:

        • 僅針對發生變更的規則,以及變更規則受影響的資料及無結果資料,重新掃描並更新結果。

        • 全部資料重新掃描並結果全覆蓋。

        可勾選手動修正結果不覆蓋。

        識別帳號

        配置通過主帳號或某個子帳號抽樣及掃描資料。通過選擇的當前帳號對資料進行抽樣和掃描,帳號的許可權不同,可抽樣及掃描的資料範圍存在差異。

        說明

        通過子帳號進行抽樣及掃描,使用的子帳號需要先獲得MaxCompute專案空間的許可權。

        內容識別

        配置敏感性資料識別規則中的內容識別中繼資料識別是否生效。勾選後,相應規則才會生效。

        說明

        若不勾選內容識別,則資料保護傘將不會對資料進行抽樣和掃描,敏感性資料識別規則中的內容識別規則將不生效,但是欄位名稱、欄位注釋規則依然生效。

        抽樣數量

        配置內容識別的抽樣數量,建議數量大於100。

        當勾選內容識別後,需配置該參數。

        掃描範圍

        配置敏感性資料識別任務掃描的資料範圍。

        1. 全量:掃描當前租戶所授權帳號下的全部資料。

        2. 部分資料:可選擇掃描指定專案空間下的表資料。

          說明
          1. 專案空間範圍預設為全部資料引擎的所有專案空間。

          2. 目前支援選擇掃描ODPS、EMR、HOLO專案的指定表的資料。

            1. 表名總長度為0~100,字元不限,不填代表掃描全部表。

            2. 支援.*萬用字元。例如,.*name表示以name為尾碼;private.*表示以private為首碼。

            3. 多個表名或欄位名請用英文逗號(,)分隔。

          3. 選擇部分資料,即可添加多重專案空間/資料庫掃描範圍,最終掃描範圍取多個範圍的並集。

            1. 使用者需在頁面左側手動選擇專案空間。

            2. 使用者選中專案空間後,頁面右側會展示該專案空間/資料庫範圍內的資料表,可手動勾選或一鍵全選,預設選擇該資料庫範圍內的所有資料表。

            3. 專案空間/資料庫範圍、資料表均支援關鍵字搜尋。資料表關鍵字搜尋功能,需先選擇專案空間,在指定專案空間內進行搜尋。

    2. 單擊開啟,啟動掃描任務。

      啟動後,任務狀態將變更如下:

      1. 即時任務:變更為開啟中。

      2. 定時任務:變更為開啟中。到達任務配置的掃描時間後,平台將按照相關配置進行敏感性資料識別。

      3. 建立識別任務:變更為任務進度條,待進度達到100%後表示任務掃描完成。進度計算方式為=(本次任務中已識別的表數量/本次任務中全部要識別的表數量) × 100%。

      說明
      1. 識別規則修改後,新規則將在下一次定時任務(非即時)中啟用,若需要即時觸發新任務,您需要手動建立識別任務。

      2. 掃描任務結束後,任務狀態將更新為無任務

管理資料識別規則

  • 複製規則:若您需快速複製已有規則,可單擊複製表徵圖。新產生的規則名稱預設添加尾碼-複製,且狀態為草稿,您可按需配置。

  • 編輯規則:若您需修改規則資訊,可單擊編輯表徵圖。

    說明
    • 通過內建敏感欄位類型配置的規則,不支援修改基本資料。

    • 規則被修改後,歷史規則命中的欄位識別結果將被清理。

  • 刪除規則:若某規則後續無需再使用,可單擊刪除表徵圖刪除。

    重要

    刪除某敏感性資料類型的識別規則影響較大,請仔細閱讀以下影響後再確認是否刪除。

  • 批量發布規則:規則發布後,平台才會使用該規則識別相應敏感性資料。若規則較多,可通過批量功能發布。

    1. 在資料識別規則頁面,單擊批量發布,勾選需要發布的規則。

      說明

      僅支援勾選草稿狀態的規則。

    2. 單擊發布。發布後,對應規則的狀態將置為發行

      說明

      若無需發布,可單擊取消,該敏感欄位即可恢複原始草稿狀態。

  • 批量失效規則:對應規則失效後,平台將不再進行該類敏感性資料的識別。資料發現、手動修正資料等模組中的該類敏感欄位類型的記錄將會刪除。執行失效操作前,請確認該敏感欄位類型的識別規則是否被資料脫敏規則風險識別規則引用,若已使用,則需先將資料脫敏規則置為失效,並取消風險識別規則中的引用。詳情請參見建立資料脫敏規則風險識別管理

    1. 在資料識別規則頁面,單擊批量失效,勾選需要失效的規則。

      說明

      僅支援勾選發行狀態的規則。

    2. 單擊批量失效。失效後,對應規則的狀態將置為草稿

      說明

      若無需失效,可單擊取消,該規則即可恢複原始發行狀態。

後續操作:查看任務執行記錄

敏感性資料識別 > 識別任務 > 任務執行記錄會保留近1周已完成任務的記錄(不包含當前進行中中的記錄),您可查看任務的開始時間結束時間耗時任務類型責任人資料範圍等詳情。