データカタログは、Data Lake Formation (DLF) または Hive Metastore (HMS) における最上位のメタデータエンティティであり、複数のデータベースを含むことができます。EMR Serverless Spark では、アタッチされたデータカタログ内のデータベースとテーブルを表示したり、既存のデータカタログを追加したりできます。この機能は、メタデータの分離が必要なシナリオで役立ちます。
Livy または Kyuubi を介して送信されたインタラクティブジョブは、デフォルトカタログ (Default Catalog) にのみアクセスできます。複数種類のデータカタログへの同時アクセスはサポートされていません。
データカタログの追加
データカタログページに移動します。
EMR コンソールにログインします。
左側のナビゲーションウィンドウで、 を選択します。
Spark ページで、対象のワークスペースの名前をクリックします。
EMR Serverless Spark ページで、左側のナビゲーションウィンドウにある Data Catalog をクリックします。
説明[Data Catalog] ページには、クラスターの作成時に選択された DLF データカタログ内のデータベースとテーブルが表示されます。
データカタログの追加 をクリックします。
データカタログの追加 ダイアログボックスで、次のパラメーターを設定し、追加 をクリックします。
DLF データカタログ:データレイクに保存されているメタデータを管理およびクエリするために使用されるメタデータ管理サービスです。既存の DLF データカタログを選択するか、新しいカタログを作成して、データレイク内のメタデータに迅速にアクセスできます。
新しい DLF データカタログを作成するには、データカタログの作成 をクリックします。Data Lake Formation コンソールにリダイレクトされます。詳細については、「メタデータ管理」をご参照ください。
説明DLF データカタログを使用するには、esr-4.3.0 以降、esr-3.3.0 以降、または esr-2.7.0 以降のいずれかのエンジンバージョンを使用する必要があります。
外部 Hive Metastore:通常、Hive テーブルのメタデータを管理するために使用される独立したメタデータサービスです。このサービスを設定することで、外部の Hive Metastore からのメタデータを現在の環境に統合できます。
このメソッドを使用するには、Serverless Spark がサービスの場所である VPC に接続できることを確認してください。
パラメーター
説明
ネットワーク接続
ご利用の環境と外部 Hive Metastore の VPC との間のネットワーク接続です。
ドロップダウンリストから作成済みのネットワーク接続の名前を選択します。詳細については、「ステップ 1: ネットワーク接続の追加」をご参照ください。
Metastore サービスアドレス
外部 Hive Metastore のサービスアドレスです。フォーマットは
thrift://<metastore-host>:<port>です。ここで:
<metastore-host>:Hive Metastore サービスのホスト名または IP アドレスです。<port>:Hive Metastore サービスのポート番号です。デフォルトは9083です。
Kerberos 認証
外部 Hive Metastore で Kerberos 認証が有効になっている場合は、keytab ファイルのパスとプリンシパル名を指定します。
Kerberos Keytab ファイルパス:Kerberos keytab ファイルのパスです。
Kerberos プリンシパル:keytab ファイル内のプリンシパルの名前です。このプリンシパルは、Kerberos サービスでの ID 検証に使用されます。
説明klist -kt <keytab_file>コマンドを使用して、対象の keytab ファイル内のプリンシパル名を表示します。
データベースとテーブルの表示
Data Catalog ページで、データカタログ ID をクリックします。
ページには、データカタログ内のすべてのデータベースに関する情報が表示されます。
[操作] 列で、テーブル をクリックします。
ページには、データベース内のすべてのテーブルに関する情報が表示されます。
[操作] 列で、列情報 をクリックします。
ページには、選択したテーブルのテーブル情報と列情報が表示されます。
関連ドキュメント
外部 Metastore サービスの追加方法の詳細については、「外部 Hive Metastore サービスへの接続」をご参照ください。