すべてのプロダクト
Search
ドキュメントセンター

E-MapReduce:Sparkクラスタのメタデータ管理を設定する

最終更新日:Jan 11, 2025

E-MapReduce(EMR)コンソールのEMR on ACKページでSparkクラスタを設定し、Data Lake Formation(DLF)またはセルフマネージドHiveメタストアを使用してクラスタのメタデータを管理できます。このトピックでは、EMRコンソールのEMR on ACKページでSparkクラスタのメタデータ管理を設定する方法について説明します。

背景情報

DLFは、高可用性と容易なメンテナンスを提供します。このサービスは、以下のシナリオにおける集中メタデータ管理に適しています。

  • すべてのEMRクラスタが本番環境にデプロイされている場合。 DLFを使用する場合、独立したメタデータベースを維持する必要はありません。

  • MaxCompute、Hologres、Machine Learning Platform for AIなど、複数のビッグデータコンピューティングエンジンが使用されている場合。

  • 複数のEMRクラスタが作成されている場合。

前提条件

  • EMRコンソールのEMR on ACKページでSparkクラスタが作成されていること。 詳細については、「手順 1:クラスタを作成する」をご参照ください。

  • DLFを使用してメタデータを管理する場合:DLFがアクティブ化されていること。 詳細については、「クイックスタート」をご参照ください。

  • セルフマネージドHiveメタストアを使用してメタデータを管理する場合:セルフマネージドHiveメタストアが作成されており、作成したContainer Service for Kubernetes(ACK)クラスタからアクセスできること。

方法 1:(推奨)DLFを使用してメタデータを管理する

  1. [クラスタの詳細] タブに移動します。

    1. EMR on ACKコンソール にログインします。

    2. [EMR On ACK] ページで、管理するSparkクラスタを見つけ、その名前をクリックします。

  2. [クラスタの詳細] タブで、有効にする[data Lake Formation (DLF)] の横にある をクリックします。

  3. [DLF を有効にする] メッセージで、[OK] をクリックします。

    構成が完了すると、Sparkクラスターに送信されたジョブのデータはDLFに自動的にインポートされます。

方法 2:セルフマネージドHiveメタストアを使用してメタデータを管理する

  1. [構成] タブに移動します。

    1. EMR on ACKコンソール にログインします。

    2. [EMR On ACK] ページで、管理するSparkクラスタを見つけ、[アクション] 列の [構成] をクリックします。

  2. [構成] タブで、[spark-defaults.conf] タブをクリックします。

  3. カスタム設定項目を追加します。

    1. spark-defaults.confタブで、[設定項目を追加] をクリックします。

    2. 表示されるダイアログボックスで、spark.hadoop.hive.metastore.uris パラメーターを thrift://<セルフマネージド Hive メタストアの IP アドレス>:9083 に設定します。

      この構成項目は、Thriftプロトコルに基づいてHiveメタストアにアクセスするために使用されるUniform Resource Identifier(URI)を指定します。ビジネス要件に基づいて[値]パラメーターを変更します。

    3. [OK] をクリックします。

    4. 表示されるダイアログボックスで、[実行理由] フィールドに理由を入力し、[保存] をクリックします。

  4. クライアント設定をデプロイします。

    1. [構成] タブの下部にある [クライアント構成のデプロイ] をクリックします。

    2. 表示されるダイアログボックスで、[実行理由] フィールドに理由を入力し、[OK] をクリックします。

    3. [確認] メッセージで、[OK] をクリックします。

    設定が完了すると、Sparkクラスタに送信されたジョブのデータはセルフマネージドHiveメタストアに自動的にインポートされます。