在巨量資料領域,阿里雲為企業使用者提供了一整套資料安全方案,包含使用者認證、資料許可權、巨量資料作業管理體系等。本文以聯合使用DataWorks與EMR為例,為您介紹DataWorks on EMR情境下的資料安全方案。
背景資訊
DataWorks on EMR目前支援LDAP認證方式,Open LDAP組件目前已經整合 Hive, spark thrift-server, kyuubi, presto, impala,保障認證通過的使用者才可以使用服務進行資料查詢。
資料安全能力:資料許可權
當前為您提供兩種EMR資料許可權管控方案:開源Ranger方案和DLF Auth方案。
開源Ranger方案:您需要在叢集拉起Ranger服務,管理HDFS、Yarn、Hive庫和Hive表等資料許可權。
DLF Auth方案:您需要在叢集拉起DLF Auth服務,來管理庫、表、列、函數等資料許可權,詳細介紹請參見DLF-Auth。DLF Auth的相關授權操作可直接通過DataWorks資訊安全中心完成,操作詳情請參見DLF資料存取權限控制。
如果您使用OSS作為儲存,可以在OSS設定檔案存取權限。 DataWorks遵循您在Range、DLF、OSS設定的資料許可權限制。
資料安全能力:任務管理
DataWorks提供了巨量資料開發營運等能力,其中工作空間、資訊安全中心等功能模組可實現對巨量資料計算任務的管理。
工作空間:通過DataWorks的工作空間規劃可以實現工作空間的人員管理、設定巨量資料作業可見度和可營運性。工作空間的規劃與操作請參見工作空間概述。

資訊安全中心:通過DataWorks的資訊安全中心可以設定DLF表的存取權限。操作詳情請參見DLF資料存取權限控制。
註冊叢集:註冊EMR叢集至DataWorks時,可以設定產生任務啟動並執行帳號身份,可指定生產任務運行時的叢集訪問身份為任務責任人、阿里雲主帳號或阿里雲子帳號。更多資訊,請參見註冊EMR叢集至DataWorks。
註冊EMR引擎時設定的叢集訪問身份,實際運行EMR叢集任務時,會映射為一個EMR叢集的帳號,DataWorks提供了設定帳號映射的能力。
資料安全實踐:從Hadoop單一帳號升級到完善的資料許可權管理
很多使用者為快速開始巨量資料業務,使用單一帳號Hadoop進行作業開發運行,沒有做使用者管理和相應的資料許可權管理。如何能夠快速升級,保障業務正常運轉的情況下增加對資料的安全管控成為後續資料安全的重要挑戰。下文以一個升級實踐,為您樣本可採用的升級方案,如LDAP+Ranger, 或者LDAP+DLF Auth。下文以LDAP+DLF Auth為例介紹一下升級的過程。
在EMR組件中選擇Open LDAP服務,拉起服務後,在Open LDAP中添加使用者帳號。
選擇某一組件,如Hive, 開啟LDAP服務, 同時驗證使用LDAP帳號可以登入服務,且作業可以正常運行。
進入,註冊EMR叢集時,按需配置叢集訪問身份。詳情請參見註冊EMR叢集至DataWorks。

在叢集管理頁面, 選擇目的地組群的帳號映射配置,增加雲帳號與LDAP帳號的映射關係。詳情請參見設定叢集身份映射。

您可以前往DataWorks資訊安全中心進行DLF使用權限設定。請務必確認任務啟動並執行帳號擁有所有的資料許可權,避免因許可權不足,導致任務的失敗。