資料目錄是資料湖構建(Data Lake Formation)或 Hive Metastore (HMS) 的中繼資料最上層實體,可以包含若干個資料庫。在EMR Serverless Spark中,您可以通過該功能來查看繫結資料目錄中的資料庫和表,還可以添加已有的資料目錄。該功能適用於需要實現中繼資料隔離的情境。
通過Livy提交的互動式任務僅支援訪問預設資料目錄(Default Catalog),不支援同時訪問多種類型的資料目錄。
Catalog介紹
EMR Serverless Spark提供了靈活的Catalog管理機制,支援多種類型的Catalog(例如Paimon、Iceberg等),以滿足不同情境的需求。除了資料目錄方式外,還支援內建的Catalog以及自訂Catalog。本部分將詳細介紹Serverless Spark中Catalog的分類、配置方法及其使用方式。
Catalog類型 | 支援資料來源 | 添加方式 | 特性說明 | 使用方式 |
資料目錄Catalog |
| 需在数据目录頁面手動添加Catalog。 | 新增Catalog後,需要重啟一次正在啟動並執行會話,以使其生效。 |
|
自訂Catalog | Paimon、Iceberg等 | 通過編輯會話,在Spark配置中添加相應類型的參數。 | 需自行配置參數,支援擴充多種資料來源。 | |
添加資料目錄
進入資料目錄頁面。
在左側導覽列,選擇。
在Spark頁面,單擊目標工作空間名稱。
在EMR Serverless Spark頁面,單擊左側導覽列中的数据目录。
說明資料目錄頁面為您展示了建立叢集時您選擇的DLF資料目錄下的資料庫和表。
單擊添加数据目录。
在添加数据目录對話方塊中,配置以下資訊,單擊添加。
DLF 数据目录:是一種中繼資料管理服務,用於管理和查詢儲存在資料湖中的中繼資料。通過選擇已有的DLF資料目錄或建立新的資料目錄,您可以快速接入資料湖中的中繼資料。
如果您想建立新的DLF資料目錄,可以單擊创建数据目录,跳轉至資料湖構建控制台建立,詳情請參見中繼資料管理。
說明使用DLF資料目錄時,僅支援使用以下引擎版本:esr-4.3.0及以上版本、esr-3.3.0及以上版本、esr-2.7.0及以上版本。
外部 Hive Metastore:是一種獨立的中繼資料服務,通常用於管理Hive表的中繼資料。通過配置該服務,您可以將外部Hive Metastore中的中繼資料整合到當前環境中。
使用該方式,需確保Serverless Spark與該服務所在VPC已經連通。
參數
說明
网络连接
當前環境與外部Hive Metastore所在VPC的網路連接配置。
在下拉式清單中選擇已建立的網路連接名稱,具體請參見步驟一:新增網路連接。
Metastore 服务地址
外部Hive Metastore的服務地址,格式為
thrift://<metastore-host>:<port>。其中:
<metastore-host>:Hive Metastore服務的主機名稱或IP地址。<port>:Hive Metastore服務的連接埠號碼,預設為9083。
Kerberos認證
如果您的外部Hive Metastore開啟Kerberos認證,您需要指定keytab檔案地址,以及Principal名稱。
Kerberos keytab檔案地址:Kerberos keytab檔案路徑。
Kerberos principal:keytab檔案中包含的Principal的名稱,用於與Kerberos服務進行身分識別驗證。
說明您可以使用
klist -kt <keytab檔案>命令查看目標keytab檔案中Principal的名稱。
查看資料庫和表
在数据目录頁面,單擊資料目錄ID。
展示當前資料目錄下的所有資料庫資訊。
單擊操作列的表。
展示當前資料庫下的所有資料表資訊。
單擊操作列的列信息。
展示當前資料表的表資訊和列資訊。
相關文檔
如果您需要添加外部Metastore服務,請參見串連外部Hive Metastore Service。