當專案使用者具備查詢E-MapReduce專案中的某些敏感性資料許可權,擔憂不希望使用者能看到完整的敏感性資料資訊時,可以對查詢結果進行資料動態脫敏。本文為您介紹如何開啟E-MapReduce的動態脫敏功能,並提供參考樣本。
使用限制
EMR叢集僅支援資料保護傘的敏感性資料發現和資料脫敏功能,不支援其它資料保護傘功能。
敏感性資料發現和資料脫敏目前只支援部分EMR叢集類型和表類型,詳情請參見支援Hive表在資料地圖中預覽的類型。
保護傘元側中繼資料為T+1更新,如需使用EMR資料脫敏,需提前一天建立好需要脫敏的資料。
僅支援獨享調度資源群組,詳情請參見:獨享調度資源群組。
準備工作
前置條件
資料保護傘預設使用主帳號映射的叢集帳號進行資料抽樣,如果您的叢集開啟了 LDAP 或 Kerberos 認證、使用 Ranger 或 DLF-Auth 管理表許可權,需要您為主帳號配置帳號映射,並保證映射後的叢集帳號有許可權訪問 EMR 叢集中的表。詳情請參見舊版資料開發:綁定EMR計算資源。
資料準備
建立E-MapReduce表
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
在資料開發頁面單擊建立,選擇建立Hive節點。
編輯節點代碼,建立
onefall_test_dsg表。CREATE TABLE IF NOT EXISTS onefall_test_dsg ( username STRING ,gender STRING ,phone STRING ,email STRING ,card_no STRING ,address STRING ,zip_code STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY',' ;匯入測試資料至
onefall_test_dsg表。本案例提供測試資料data.csv,下載該測試資料。
匯入測試資料。
將data.csv 上傳到 EMR 叢集某個節點上,通過SQL載入測試資料。
LOAD DATA LOCAL INPATH '/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg;將data.csv上傳至OSSObject Storage Service中,通過SQL載入測試資料。
LOAD DATA INPATH 'oss://bucket-name.Endpoint/…/data.csv' OVERWRITE INTO TABLE onefall_test_dsg ;
資料保護傘中繼資料更新
保護傘元側中繼資料為T+1更新,在建立並發布onefall_test_dsg表後,需要等至第二天再進行資料脫敏操作。
配置資料脫敏
步驟一:建立資料識別規則
DataWorks通過識別規則對E-MapReduce表中的欄位進行識別,所以在配置脫敏規則之前,必須配置相應的識別規則,具體詳情請參見配置資料識別規則並執行識別任務。
進入資料識別規則
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資訊安全中心。
單擊左側導覽列的,單擊立即體驗,進入資料保護傘。
說明若阿里雲主帳號已授權,則直接進入資料保護傘的首頁。
若阿里雲主帳號未授權,則進入資料保護傘的授權頁面。授權後才可使用保護傘的相關功能。
單擊左側導覽列的,進入資料識別規則頁面。
配置識別規則
本樣本以資料準備模組建立的表為例,來建立識別規則,目的為識別出onefall_test_dsg表中的gender、phone和email欄位,並且將這三個欄位進行脫敏處理。
選擇敏感欄位所在的資料分類。
在左側的內建分類分級模板地區選取項目新增敏感欄位所在的資料分類,詳情請參見配置資料識別規則並執行識別任務。
新增敏感欄位類型並配置識別規則。
單擊右上方敏感欄位類型,出現識別規則配置頁面。詳細配置請參見配置資料識別規則並執行識別任務。
說明為方便對敏感欄位類型理解,可將敏感欄位類型配置為
onefall_test_dsg表的欄位名gender、phone和email配置完成資料識別規則後,單擊右上方的批量發布,選中建立好的識別規則,即可進行批量發布。

步驟二:建立資料脫敏管理
DataWorks通過配置資料脫敏規則對E-MapReduce表中的欄位進行脫敏,在配置脫敏規則之前,具體詳情請參見建立資料脫敏規則。
進入資料脫敏規則
登入DataWorks控制台後,進入資料保護傘頁面,操作詳情請參見資料保護傘。
單擊開始體驗,預設進入資料保護傘的首頁。
單擊左側導覽列中的,在資料脫敏管理頁面您可以建立新的情境類型並配置脫敏規則。
新增脫敏情境
DataWorks提供的資料開發/資料地圖展示脫敏、資料分析展示脫敏、MaxCompute引擎層脫敏、Hologres引擎層脫敏等動態脫敏,及Data Integration靜態脫敏等一級脫敏情境為固定情境,不支援執行新增、編輯、刪除等操作,可基於業務需要,基於一級情境自訂二級情境。具體詳情請參見建立資料脫敏情境。
本樣本以資料開發/資料地圖展示脫敏和資料分析展示脫敏為主。
資料開發/資料地圖展示脫敏下的二級情境名:
開發展示。資料分析展示脫敏下的二級情境名:
SQL分析。
新增脫敏規則
完成脫敏情境建立後,即可單擊右上方的脫敏規則來建立脫敏規則,依舊是建立三條脫敏規則,以gender、phone和email命名。具體詳情請參見建立資料脫敏規則。
選擇脫敏情境。
在資料脫敏管理頁面,選擇脫敏情境為,單擊右側+脫敏規則。
建立資料脫敏規則。
步驟三:開啟資料敏感識別
生產環境保護傘每天擷取完 E-MapReduce 中繼資料後,會繼續調用 DataWorks 中繼資料 OpenAPI 擷取表的抽樣資料,根據敏感性資料識別規則,識別出敏感欄位,本案例為測試案例,可通過手動開啟識別規則,識別出敏感欄位。
單擊左側導覽列中的進入敏感性資料識別頁面。
在敏感性資料識別左上方單擊開啟任務,即可進入開啟敏感性資料識別任務面板進行配置。
任務類型:手動任務。
識別帳號:通過當前帳號對資料進行抽樣和掃描,帳號許可權不同可抽樣的資料範圍會有所不同。本案例選擇主帳號。
內容識別:可選擇對錶內容識別和中繼資料識別。本案例選擇內容識別。
抽樣數量:自訂抽樣數量,保持預設100條即可。
掃描範圍:配置為自訂範圍,通過專案空間/資料庫範圍來框選掃描範圍。

本樣本的表名為
onefall_test_dsg。
圈選好範圍後,單擊面板右下角開啟按鈕,開啟資料識別任務。
說明資料識別任務可在敏感性資料識別頁面,單擊任務執行記錄查看資料識別任務的執行詳情。
查詢SQL確認脫敏結果
查看E-MapReduce表預覽脫敏
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在右側頁面中單擊進入資料地圖。
單擊左側
按鈕,切換至搜尋網頁面後,單擊頁面上部下拉框,切換為E-MapReduce資料來源後,搜尋表名onefall_test_dsg。單擊搜尋到的表名,進入表詳情側面後,單擊資料預覽即可對本樣本的表資料進行預覽。

表中的欄位在資料預覽中已按照配置的識別規則和脫敏規則進行脫敏。
查看資料開發介面脫敏結果
DataWorks開發介面查詢脫敏資料,受資料開發專案空間層級開關控制,開啟步驟如下。
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊左側功能欄的
按鈕,進入開發專案空間設定頁面。在開發專案空間設定頁面單擊安全設定與其他,開啟的開關。
測試查詢結果脫敏
進入資料開發頁面。
登入DataWorks控制台,切換至目標地區後,單擊左側導覽列的,在下拉框中選擇對應工作空間後單擊進入資料開發。
單擊左側
,進入臨時查詢查詢頁面後單擊
,建立臨時查詢節點。在節點查詢
onefall_test_dsg表,即可查看在資料開發頁面該表的脫敏展示。SELECT * FROM onefall_test_dsg;