EMR on ACK支援使用資料湖中繼資料DLF(Data Lake Formation)和自建Hive Metastore中繼資料兩種方式,為Spark叢集設定中繼資料。本文為您介紹如何在EMR on ACK中設定Spark叢集的中繼資料。
背景資訊
因為資料湖中繼資料DLF具有高可用和易維護的特點,所以以下情境適合使用資料湖中繼資料:
-
當您的EMR叢集均為生產環境時,您無需維護獨立的中繼資料庫。
-
橫向使用多種巨量資料計算引擎時,中繼資料可以集中管理。例如,MaxCompute、Hologres和Platform for AI等。
-
多個EMR叢集時,可以統一管理中繼資料。
前提條件
方式一:使用資料湖中繼資料DLF(推薦)
-
進入叢集詳情頁面。
-
在EMR on ACK頁面,單擊目的地組群的名稱。
-
在集群详情頁面,單擊数据湖构建(DLF)後面的点击启用。
-
在启用 DLF對話方塊中,單擊OK。
完成上述配置後,向該Spark叢集提交的任務,會自動連接DLF中繼資料。
方式二:使用自建Hive Metastore中繼資料
-
進入叢集的配置頁面。
-
在EMR on ACK頁面,單擊目的地組群操作列的配置。
-
在配置頁簽,單擊spark-defaults.conf頁簽。
-
添加自訂配置。
-
單擊上方的新增配置项。
-
添加Key為spark.hadoop.hive.metastore.uris,Value為thrift://<自建Hive的IP地址>:9083的配置項。
該參數表示Hive Metastore使用Thrift協議串連的URI。參數值請根據您實際情況修改。
-
單擊确定。
-
在彈出的對話方塊中,輸入執行原因,單擊保存。
-
-
部署用戶端配置。
-
單擊部署客户端配置。
-
在彈出的對話方塊中,輸入執行原因,單擊确定。
-
在确认對話方塊中,單擊确定。
完成上述配置後,向該Spark叢集提交的任務,會自動連接自建的Hive Metastore。
-