E-MapReduce(EMR)コンソールのEMR on ACKページでSparkクラスタを設定し、Data Lake Formation(DLF)またはセルフマネージドHiveメタストアを使用してクラスタのメタデータを管理できます。このトピックでは、EMRコンソールのEMR on ACKページでSparkクラスタのメタデータ管理を設定する方法について説明します。
背景情報
DLFは、高可用性と容易なメンテナンスを提供します。このサービスは、以下のシナリオにおける集中メタデータ管理に適しています。
すべてのEMRクラスタが本番環境にデプロイされている場合。 DLFを使用する場合、独立したメタデータベースを維持する必要はありません。
MaxCompute、Hologres、Machine Learning Platform for AIなど、複数のビッグデータコンピューティングエンジンが使用されている場合。
複数のEMRクラスタが作成されている場合。
前提条件
EMRコンソールのEMR on ACKページでSparkクラスタが作成されていること。 詳細については、「手順 1:クラスタを作成する」をご参照ください。
DLFを使用してメタデータを管理する場合:DLFがアクティブ化されていること。 詳細については、「クイックスタート」をご参照ください。
セルフマネージドHiveメタストアを使用してメタデータを管理する場合:セルフマネージドHiveメタストアが作成されており、作成したContainer Service for Kubernetes(ACK)クラスタからアクセスできること。
方法 1:(推奨)DLFを使用してメタデータを管理する
[クラスタの詳細] タブに移動します。
EMR on ACKコンソール にログインします。
[EMR On ACK] ページで、管理するSparkクラスタを見つけ、その名前をクリックします。
[クラスタの詳細] タブで、有効にする[data Lake Formation (DLF)] の横にある をクリックします。
[DLF を有効にする] メッセージで、[OK] をクリックします。
構成が完了すると、Sparkクラスターに送信されたジョブのデータはDLFに自動的にインポートされます。
方法 2:セルフマネージドHiveメタストアを使用してメタデータを管理する
[構成] タブに移動します。
EMR on ACKコンソール にログインします。
[EMR On ACK] ページで、管理するSparkクラスタを見つけ、[アクション] 列の [構成] をクリックします。
[構成] タブで、[spark-defaults.conf] タブをクリックします。
カスタム設定項目を追加します。
spark-defaults.confタブで、[設定項目を追加] をクリックします。
表示されるダイアログボックスで、spark.hadoop.hive.metastore.uris パラメーターを thrift://<セルフマネージド Hive メタストアの IP アドレス>:9083 に設定します。
この構成項目は、Thriftプロトコルに基づいてHiveメタストアにアクセスするために使用されるUniform Resource Identifier(URI)を指定します。ビジネス要件に基づいて[値]パラメーターを変更します。
[OK] をクリックします。
表示されるダイアログボックスで、[実行理由] フィールドに理由を入力し、[保存] をクリックします。
クライアント設定をデプロイします。
[構成] タブの下部にある [クライアント構成のデプロイ] をクリックします。
表示されるダイアログボックスで、[実行理由] フィールドに理由を入力し、[OK] をクリックします。
[確認] メッセージで、[OK] をクリックします。
設定が完了すると、Sparkクラスタに送信されたジョブのデータはセルフマネージドHiveメタストアに自動的にインポートされます。