このトピックでは、E-MapReduce(EMR)クラスターのメタデータを保存するために使用できる Alibaba Cloud Data Lake Formation(DLF)サービスについて説明します。また、EMR クラスターのメタデータストレージタイプを変更する方法についても説明します。
背景情報
DLF は、Alibaba Cloud によって開発されたフルマネージドサービスであり、クラウドネイティブのデータレイクを簡単に構築および管理するのに役立ちます。 DLF を使用すると、メタデータとユーザー権限を一元的に管理し、データレイクに簡単にデータを取り込み、数回クリックするだけでデータレイク内のデータを探索できます。詳細については、[概要] をご参照ください。
DLF を使用すると、クラウドネイティブのデータレイクをさまざまなコンピューティングエンジンに接続することもできます。このようにして、データサイロを打破し、データのビジネス価値に関する洞察を得ることができます。
前提条件
DLF サービスは、[DLFコンソール] でアクティブ化されています。
制限事項
- DLF は、EMR の Hive 2.x、Hive 3.x、Presto、および Spark SQL と互換性があります。
- DLF を Hive メタデータベースとして指定できるのは、EMR V3.33.0 以降のマイナーバージョン、または EMR V4.5.0 以降のマイナーバージョンのクラスターのみです。
メタデータのストレージタイプを変更する
- Hive サービスページに移動します。
- 上部のナビゲーションバーで、クラスターが存在するリージョンを選択し、ビジネス要件に基づいてリソースグループを選択します。
- [EMR On ECS] ページで、目的のクラスターを見つけ、[アクション] 列の [サービス] をクリックします。
- [サービス] タブで、Hive サービスを見つけ、[設定] をクリックします。
- [設定] タブで、検索ボックスに [hive.imetastoreclient.factory.class] パラメーターを入力し、
アイコンをクリックします。- 組み込み MySQL データベース、統合メタデータベース、または自己管理の ApsaraDB RDS for MySQL データベースをメタデータベースとして使用する:
[hive.imetastoreclient.factory.class] パラメーターの値を [org.apache.hadoop.hive.ql.metadata.sessionhivemetastoreclientfactory] に設定します。
- 統合メタデータストレージに DLF を使用する:
[hive.imetastoreclient.factory.class] パラメーターの値を [com.aliyun.datalake.metastore.hive2.dlfmetastoreclientfactory] に設定します。
- 組み込み MySQL データベース、統合メタデータベース、または自己管理の ApsaraDB RDS for MySQL データベースをメタデータベースとして使用する:
- 設定を保存します。
- [設定] タブの左下隅にある [保存] をクリックします。
- [保存] ダイアログボックスで、[実行理由] パラメーターを設定し、[保存] をクリックします。
- Hive サービスを再起動します。
- Hive サービスページの右上隅で、 を選択します。
- [HIVE サービスの再起動] ダイアログボックスで、[実行理由] パラメーターを設定し、[OK] をクリックします。
- [確認] メッセージで、[OK] をクリックします。タスクの進行状況を表示するには、右上隅にある [操作履歴] をクリックします。