DataWorks提供的EMR(E-MapReduce)Hive節點支援雲端大規模資料的批處理分析,能夠操作儲存在分布式系統中的資料,簡化巨量資料處理流程並提高開發效率。在EMR Hive節點中,您可以使用類SQL語句讀取、寫入和管理巨量資料集,從而高效地完成海量日誌資料的分析和開發工作。
前提條件
已建立阿里雲EMR叢集,並註冊EMR叢集至DataWorks。操作詳情請參見新版資料開發:綁定EMR計算資源。
(可選,RAM帳號需要)進行任務開發的RAM帳號已被添加至對應工作空間中,並具有開發或空間管理員(許可權較大,謹慎添加)角色許可權,新增成員的操作詳情請參見為工作空間增加空間成員。
如果您使用的是主帳號,則可忽略該添加操作。
已在DataWorks配置Hive資料來源並通過連通性測試,詳情請參見資料來源管理。
使用限制
僅支援使用Serverless資源群組(推薦)或獨享調度資源群組運行該類型任務。
DataLake或自訂叢集若要在DataWorks管理中繼資料,需先在叢集側配置EMR-HOOK。配置EMR-HOOK,詳情請參見配置Hive的EMR-HOOK。
說明若未在叢集側配置EMR-HOOK,則無法在DataWorks中即時展示中繼資料、產生審計日誌、展示血緣關係、開展EMR相關治理任務。
步驟一:EMR Hive節點開發
在EMR Hive節點編輯頁面,執行如下開發操作。
開發SQL代碼
在SQL編輯地區開發工作單位代碼,您可在代碼中使用${變數名}的方式定義變數,並在節點編輯頁面右側調度配置的調度參數中為該變數賦值。實現調度情境下代碼的動態傳參,調度參數使用詳情,請參考調度參數支援格式,樣本如下。
SHOW TABLES ;
SELECT '${var}'; --可以結合調度參數使用。
SELECT * FROM userinfo ;SQL語句最大不能超過130KB。
步驟二:EMR Hive節點配置
(可選)配置進階參數
您可在節點右側調度配置的中配置下表特有屬性參數。
不同類型EMR叢集可配置的進階參數存在部分差異,具體如下表。
更多開源Spark屬性參數,可在節點右側調度配置的中進行配置。
DataLake叢集/自訂叢集:EMR on ECS
進階參數 | 配置說明 |
queue | 提交作業的調度隊列,預設為default隊列。關於EMR YARN說明,詳情請參見隊列基礎配置。 |
priority | 優先順序,預設為1。 |
FLOW_SKIP_SQL_ANALYZE | SQL語句執行方式。取值如下:
說明 該參數僅支援用於資料開發環境測試回合流程。 |
DATAWORKS_SESSION_DISABLE | 適用於開發環境直接測試回合情境。取值如下:
說明 該參數配置為 |
其他 | 您也可以直接在進階配置裡追加自訂Hive Connection參數。 |
Hadoop叢集:EMR on ECS
進階參數 | 配置說明 |
queue | 提交作業的調度隊列,預設為default隊列。關於EMR YARN說明,詳情請參見隊列基礎配置。 |
priority | 優先順序,預設為1。 |
FLOW_SKIP_SQL_ANALYZE | SQL語句執行方式。取值如下:
說明 該參數僅支援用於資料開發環境測試回合流程。 |
USE_GATEWAY | 設定本節點提交作業時,是否通過Gateway叢集提交。取值如下:
說明 如果本節點所在的叢集未關聯Gateway叢集,此處手動設定參數取值為 |
如需定期執行節點任務,請根據業務需求配置調度資訊。配置詳情請參見節點調度。
步驟三:節點調試運行
執行SQL任務
在調試配置的計算資源中,選擇配置計算資源和DataWorks資源群組。
說明您還可以根據任務執行所需的資源情況來調度 CU。預設CU為
0.25。訪問公用網路或VPC網路環境的資料來源需要使用與資料來源測試連通性成功的調度資源群組。詳情請參見網路連通方案。
在工具列的參數對話方塊中選擇已建立的Hive資料來源,單擊運行SQL任務。
說明使用EMR Hive節點查詢資料時,返回的查詢結果最大支援
10000條資料,並且資料總量不能超過10MB。單擊儲存節點任務。
後續步驟
常見問題
Q:節點運行出現連線逾時(ConnectException)?

A:請確保資源群組和叢集的網路聯通。請進入計算資源的列表頁,單擊資源初始化,在彈窗中單擊再次初始化,確保成功初始化。

