DLF または Hive メタストアで Spark メタデータを設定 - E-MapReduce

ACK 上の E-MapReduce (EMR) では、Spark クラスターのメタデータ管理に、マネージドサービスである Data Lake Formation (DLF) または独自管理型の Hive メタストアの 2 つのオプションをサポートしています。本トピックでは、それぞれの設定方法について説明します。

メタデータ管理方法の選択

	DLF（推奨）	独自管理型 Hive メタストア
管理	Alibaba Cloud による完全マネージド	お客様による管理
推奨環境	独立したメタデータベースの運用・保守が不要な本番環境、複数のビッグデータコンピュートエンジン（MaxCompute、Hologres、Machine Learning Platform for AI）を併用する環境、または複数の EMR クラスターを運用する環境	既存でデプロイ済みの Hive メタストアを再利用したい場合
設定工数	コンソールからワンクリックで有効化可能	Thrift URI の設定およびクライアント構成のデプロイが必要

前提条件

開始する前に、以下の条件を満たしていることを確認してください。

E-MapReduce コンソールの EMR on ACK ページで作成済みの Spark クラスター。詳細については、「ステップ 2：クラスターの作成」をご参照ください。
（DLF を使用する場合）Data Lake Formation (DLF) の有効化。詳細については、「クイックスタート」をご参照ください。
（独自管理型 Hive メタストアを使用する場合）お客様が独自に構築・管理する Hive メタストアが、作成済みの Container Service for Kubernetes (ACK) クラスターからアクセス可能である必要があります。

方法 1（推奨）：DLF を使用したメタデータ管理

EMR on ACK コンソールにログインします。EMR on ACK ページで対象の Spark クラスターを見つけ、その名前をクリックします。
クラスター詳細 タブで、Data Lake Formation (DLF) の横にある 有効化 をクリックします。
DLF の有効化 ダイアログで、OK をクリックします。

Spark クラスターに送信されたジョブデータは、自動的に DLF にインポートされます。

方法 2：独自管理型 Hive メタストアを使用したメタデータ管理

EMR on ACK コンソールにログインします。EMR on ACK ページで対象の Spark クラスターを見つけ、操作列の設定をクリックします。
設定タブで、spark-defaults.conf タブをクリックします。
構成項目の追加 をクリックし、以下のパラメーターを設定します：
パラメーター 値
キー spark.hadoop.hive.metastore.uris
値 thrift://<独自管理型 Hive メタストアの IP アドレス>:9083
<独自管理型 Hive メタストアの IP アドレス> を、お客様の Hive メタストアの実際の IP アドレスに置き換えてください。この値は、ポート 9083 上で Thrift プロトコルを使用します。
OK をクリックします。表示されるダイアログで、実行理由 フィールドに理由を入力し、保存をクリックします。
設定タブの下部で、クライアント構成のデプロイ をクリックします。表示されるダイアログで、実行理由 フィールドに理由を入力し、OK をクリックした後、確認ダイアログで再度 OK をクリックします。

パラメーター	値
キー	`spark.hadoop.hive.metastore.uris`
値	`thrift://<独自管理型 Hive メタストアの IP アドレス>:9083`

Spark クラスターに送信されたジョブデータは、自動的に独自管理型 Hive メタストアにインポートされます。