高速分析のための Amazon EMR でのメタデータウェアハウス設定 - Dataphin

Dataphin メタデータウェアハウス（略称：メタデータウェアハウス）は、Dataphin 内部ビジネスメタデータと対応するコンピューティングエンジンメタデータを一元管理するデータウェアハウスです。これは、Dataphin メタデータテナント（OPS テナント）内の Dataphin プロジェクト内に存在し、一連の定期的なデータ統合ノード、SQL スクリプトノード、および Shell ノードで構成されます。メタデータウェアハウスの初期化は、Dataphin システムのコンピューティングエンジンの種類を設定し、メタデータを初期化するプロセスです。このトピックでは、Amazon EMR をコンピューティングエンジンとして使用してメタデータウェアハウスを初期化する方法について説明します。

制限事項

メタデータテナントスーパー管理者 ロールまたは システム管理者 ロールを持つアカウントのみがシステムを初期化できます。

重要

メタデータテナントスーパー管理者 または システム管理者 のアカウントとパスワードを安全に保管してください。また、メタデータテナントスーパー管理者 アカウントでシステムにログオンした後の操作には注意してください。

手順

Dataphin ホームページの上部にあるメニューバーで、[管理ハブ] > [システム設定] を選択します。
左側のナビゲーションウィンドウで、[システム O&M] > [メタデータウェアハウス設定] を選択します。
[メタデータウェアハウス設定] 構成ウィザードページで、[開始] をクリックします。
初期化エンジンの種類の選択ステップで、[Amazon EMR] エンジンタイプを選択します。
重要
メタデータウェアハウスが既に初期化されている場合は、以前正常に初期化されたメタデータウェアハウスがデフォルトで選択されています。互換性のないコンピューティングエンジンに切り替えると、管理機能が使用できなくなります。
[次へ] をクリックします。

[パラメータチェック] ページで、次のパラメータを設定します。

パラメータ	説明
プライマリノードパブリック DNS	VPC のプライベート DNS を取得するために使用されるパブリック DNS。Hive と Spark はどちらもプライベート DNS を使用して接続します。フォーマットは `ec2-{public_ip}.{region}.compute.amazonaws.com` です。
*キーファイル (.pem)**	プライマリノード EC2 にアクセスするためのキーペア（EMR クラスタの作成時に設定されたキーペア）。
core-site.xml	関連するクラスタ構成ファイルを自分でアップロードするか、[クラスタ構成の取得] をクリックして（最初にプライマリノードのパブリック DNS を入力し、キーファイルをアップロードする必要があります）、プライマリノードから関連ファイルをダウンロードできます。
yarn-site.xml
hive-site.xml
hdfs-site.xml
クラスタストレージ	現在、[HDFS] のみ選択できます。
メタデータ取得方法	[HMS] または [Amazon Glue] を選択できます。 [HMS]： HMS がデフォルトで選択されています。 [Amazon Glue]： Amazon Glue を選択した後、Glue リージョンコード、Glue AccessKey ID、および Glue AccessKey Secret を設定する必要があります。 Glue リージョンコード: Amazon Glue のリージョンコードを入力します（例： ap-northeast-3、 us-east-1、 us-west-1）。 Glue AccessKey ID、Glue AccessKey Secret: Amazon Glue にアクセスするための AccessKey ID と AccessKey Secret を入力します。
エンジンの種類	[Hive] または [Spark] を選択できます。 Hive を選択した後は、Hive JDBC URL を入力する必要があります。 Spark を選択した後は、Spark JDBC URL を入力する必要があります。 Hive JDBC URL: Hive の JDBC エンドポイントを入力するか、[自動取得] をクリックしてアドレスを取得します。このオプションを使用するには、まずプライマリノードのパブリック DNS を入力し、キーファイルをアップロードする必要があります。Hive JDBC URL のフォーマットは `jdbc:hive2//host1:port1,host2:post2/` です。データベース名は必要ありません。 Spark JDBC URL: Spark の JDBC エンドポイントを入力します。フォーマットは `jdbc:hive2//host1:port1/` または `jdbc:kyuubi://host1:port1/` です。データベース名は必要ありません。
ユーザー名	Hive または Spark のユーザー名。このユーザー名は、JDBC 接続の `username` として設定されます。
データベース	Amazon EMR コンピューティングエンジンのデータベース名を入力します。
メタデータ生成プロジェクト	Dataphin のメタデータウェアハウスプロジェクトの名前を入力します。このプロジェクトは、メタデータの生成と処理に使用されます。

[接続テスト] をクリックします。接続テストに合格したら、[次へ] をクリックします。
初期化ページで、[開始] をクリックします。
説明
システムの初期化には約 15 分かかります。しばらくお待ちください。
ページに実行の成功が表示されたら、[完了] をクリックして構成を完了します。

次のステップ

システムメタデータが初期化された後、Dataphin インスタンスのコンピュートエンジンを設定する必要があります。メタデータウェアハウスエンジンが Amazon EMR の場合、ビジネステナントエンジンを MaxCompute を除く任意のエンジンタイプに設定できます。詳細については、「コンピュート設定」をご参照ください。