全部產品
Search
文件中心

DataWorks:實踐樣本:E-MapReduce底層脫敏使用方法

更新時間:Jul 23, 2025

當專案使用者具備查詢E-MapReduce專案中的某些敏感性資料許可權,擔憂不希望使用者能看到完整的敏感性資料資訊時,可以對查詢結果進行資料動態脫敏。本文為您介紹如何開啟E-MapReduce的動態脫敏功能,並提供參考樣本。

使用限制

  • EMR叢集僅支援資料保護傘的敏感性資料發現和資料脫敏功能,不支援其它資料保護傘功能。

  • 敏感性資料發現和資料脫敏目前只支援部分EMR叢集類型和表類型,詳情請參見支援Hive表在資料地圖中預覽的類型

  • 保護傘元側中繼資料為T+1更新,如需使用EMR資料脫敏,需提前一天建立好需要脫敏的資料。

  • 僅支援獨享調度資源群組,詳情請參見:獨享調度資源群組

準備工作

前置條件

資料保護傘預設使用主帳號映射的叢集帳號進行資料抽樣,如果您的叢集開啟了 LDAP 或 Kerberos 認證、使用 Ranger 或 DLF-Auth 管理表許可權,需要您為主帳號配置帳號映射,並保證映射後的叢集帳號有許可權訪問 EMR 叢集中的表。詳情請參見舊版資料開發:綁定EMR計算資源

資料準備

建立E-MapReduce表

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 在資料開發頁面單擊建立,選擇建立節點 > EMR Hive建立Hive節點。

  3. 編輯節點代碼,建立onefall_test_dsg表。

    CREATE TABLE IF NOT EXISTS onefall_test_dsg
    (
        username  STRING
        ,gender   STRING
        ,phone    STRING
        ,email    STRING
        ,card_no  STRING
        ,address  STRING
        ,zip_code STRING
    )
    ROW FORMAT DELIMITED 
    FIELDS
    TERMINATED
    BY','
    ;
  4. 匯入測試資料至onefall_test_dsg表。

    1. 本案例提供測試資料data.csv,下載該測試資料。

    2. 匯入測試資料。

      • 將data.csv 上傳到 EMR 叢集某個節點上,通過SQL載入測試資料。

        LOAD DATA LOCAL INPATH '/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg;
      • 將data.csv上傳至OSSObject Storage Service中,通過SQL載入測試資料。

        LOAD DATA INPATH 'oss://bucket-name.Endpoint/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg
        ;

資料保護傘中繼資料更新

保護傘元側中繼資料為T+1更新,在建立並發布onefall_test_dsg表後,需要等至第二天再進行資料脫敏操作。

配置資料脫敏

步驟一:建立資料識別規則

DataWorks通過識別規則對E-MapReduce表中的欄位進行識別,所以在配置脫敏規則之前,必須配置相應的識別規則,具體詳情請參見配置資料識別規則並執行識別任務

進入資料識別規則

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資訊安全中心,在右側頁面中單擊進入資訊安全中心

  2. 單擊左側導覽列的資料使用安全 > 敏感性資料管理,單擊立即體驗,進入資料保護傘。

    說明
    • 若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。

    • 若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。授權後才可使用保護傘的相關功能。

  1. 單擊左側導覽列的規則配置 > 敏感性資料識別,進入資料識別規則頁面。

配置識別規則

本樣本以資料準備模組建立的表為例,來建立識別規則,目的為識別出onefall_test_dsg表中的gender、phone和email欄位,並且將這三個欄位進行脫敏處理。

  1. 選擇敏感欄位所在的資料分類。

    在左側的內建分類分級模板地區選取項目新增敏感欄位所在的資料分類,詳情請參見配置資料識別規則並執行識別任務

  2. 新增敏感欄位類型並配置識別規則。

    單擊右上方敏感欄位類型,出現識別規則配置頁面。詳細配置請參見配置資料識別規則並執行識別任務

    說明

    為方便對敏感欄位類型理解,可將敏感欄位類型配置為onefall_test_dsg表的欄位名genderphoneemail

  3. 配置完成資料識別規則後,單擊右上方的批量發布,選中建立好的識別規則,即可進行批量發布。image

步驟二:建立資料脫敏管理

DataWorks通過配置資料脫敏規則對E-MapReduce表中的欄位進行脫敏,在配置脫敏規則之前,具體詳情請參見建立資料脫敏規則

進入資料脫敏規則

  1. 登入DataWorks控制台後,進入資料保護傘頁面,操作詳情請參見資料保護傘

  2. 單擊開始體驗,預設進入資料保護傘的首頁

  3. 單擊左側導覽列中的規則配置 > 資料脫敏管理,在資料脫敏管理頁面您可以建立新的情境類型並配置脫敏規則。

新增脫敏情境

  • DataWorks提供的資料開發/資料地圖展示脫敏資料分析展示脫敏MaxCompute引擎層脫敏Hologres引擎層脫敏等動態脫敏,及Data Integration靜態脫敏等一級脫敏情境為固定情境,不支援執行新增、編輯、刪除等操作,可基於業務需要,基於一級情境自訂二級情境。具體詳情請參見建立資料脫敏情境

  • 本樣本以資料開發/資料地圖展示脫敏資料分析展示脫敏為主。

    • 資料開發/資料地圖展示脫敏下的二級情境名:開發展示

    • 資料分析展示脫敏下的二級情境名:SQL分析

新增脫敏規則

完成脫敏情境建立後,即可單擊右上方的脫敏規則來建立脫敏規則,依舊是建立三條脫敏規則,以gender、phone和email命名。具體詳情請參見建立資料脫敏規則

  1. 選擇脫敏情境。

    資料脫敏管理頁面,選擇脫敏情境資料開發/資料地圖展示脫敏 > 預設情境,單擊右側+脫敏規則

  2. 建立資料脫敏規則。

    • 在建立脫敏規則頁面,可配置敏感欄位類型脫敏規則名稱所屬脫敏情境脫敏方式等配置項,具體詳情請參見脫敏規則配置入口

    • 本樣本的三條資料脫敏規則配置如下。

      配置項

      配置內容

      gender

      email

      phone

      敏感欄位類型

      gender

      email

      phone

      脫敏規則名稱

      gender

      email

      phone

      所屬脫敏情境

      開發展示SQL分析

      開發展示SQL分析

      開發展示SQL分析

      脫敏方式

      字元替換

      替換位置

      替換全部

      替換方式

      隨機替換

      HASH加密

      資料浮水印

      關閉

      密碼編譯演算法

      MDS

      加鹽值

      5

      遮蓋脫敏

      遮掩方式

      推薦方式 > 只展示前三後四

      說明

      脫敏方式有多種,樣本中以字元替換HASH加密遮蓋脫敏三種方式為例,詳情可參見配置脫敏方式

步驟三:開啟資料敏感識別

生產環境保護傘每天擷取完 E-MapReduce 中繼資料後,會繼續調用 DataWorks 中繼資料 OpenAPI 擷取表的抽樣資料,根據敏感性資料識別規則,識別出敏感欄位,本案例為測試案例,可通過手動開啟識別規則,識別出敏感欄位。

  1. 單擊左側導覽列中的規則配置 > 敏感性資料識別進入敏感性資料識別頁面。

  2. 敏感性資料識別左上方單擊開啟任務,即可進入開啟敏感性資料識別任務面板進行配置。

    • 任務類型:手動任務。

    • 識別帳號:通過當前帳號對資料進行抽樣和掃描,帳號許可權不同可抽樣的資料範圍會有所不同。本案例選擇主帳號。

    • 內容識別:可選擇對錶內容識別和中繼資料識別。本案例選擇內容識別。

    • 抽樣數量:自訂抽樣數量,保持預設100條即可。

    • 掃描範圍:配置為自訂範圍,通過專案空間/資料庫範圍來框選掃描範圍。image

    • 本樣本的表名為onefall_test_dsg

  3. 圈選好範圍後,單擊面板右下角開啟按鈕,開啟資料識別任務。

    說明

    資料識別任務可在敏感性資料識別頁面,單擊任務執行記錄查看資料識別任務的執行詳情。

查詢SQL確認脫敏結果

查看E-MapReduce表預覽脫敏

  1. 登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料治理 > 資料地圖,在右側頁面中單擊進入資料地圖

  2. 單擊左側image按鈕,切換至搜尋網頁面後,單擊頁面上部下拉框,切換為E-MapReduce資料來源後,搜尋表名onefall_test_dsg

  3. 單擊搜尋到的表名,進入表詳情側面後,單擊資料預覽即可對本樣本的表資料進行預覽。image

說明

表中的欄位在資料預覽中已按照配置的識別規則和脫敏規則進行脫敏。

查看資料開發介面脫敏結果

DataWorks開發介面查詢脫敏資料,受資料開發專案空間層級開關控制,開啟步驟如下。

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 單擊左側功能欄的image按鈕,進入開發專案空間設定頁面。

  3. 在開發專案空間設定頁面單擊安全設定與其他,開啟資料安全 > 啟動頁面查詢內容脫敏的開關。

測試查詢結果脫敏

  1. 進入資料開發頁面。

    登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的資料開發與營運 > 資料開發,在下拉框中選擇對應工作空間後單擊進入資料開發

  2. 單擊左側image,進入臨時查詢查詢頁面後單擊image建立 > EMR Hive建立臨時查詢節點。

  3. 在節點查詢onefall_test_dsg表,即可查看在資料開發頁面該表的脫敏展示。

    SELECT * FROM onefall_test_dsg;

    image