Dataphin メタデータウェアハウスは、Dataphin のビジネスメタデータとコンピュートエンジンメタデータを管理する一元化されたリポジトリです。メタデータウェアハウスは、メタデータウェアハウステナント (OPS テナント) 内の Dataphin プロジェクトスペースにあります。これは、一連の定期的なデータ統合ノード、SQL スクリプトノード、および Shell ノードで構成されています。メタデータウェアハウスを初期化するには、Dataphin システムのコンピュートエンジンを構成し、メタデータを初期化する必要があります。このトピックでは、Hadoop をコンピュートエンジンとして使用してメタデータウェアハウスを初期化する方法について説明します。
前提条件
メタデータウェアハウスのコンピュートエンジンとして Hadoop を使用するには、メタデータベースにアクセスできるか、Hive Metastore サービスがメタデータを取得するために利用可能であることを確認してください。
背景情報
Dataphin は、メタデータベースへの直接接続または Hive Metastore サービスを使用してメタデータを取得することをサポートしています。次の表は、各メソッドの利点と欠点を比較したものです。

メタデータ取得メソッド | 利点と欠点 |
メタデータベースへの直接接続 | 高性能: 基盤となるメタデータベースへの直接接続は、Hive Metastore Service (HMS) をバイパスします。これにより、クライアントでのメタデータ取得のパフォーマンスが向上し、ネットワーク遅延が減少します。 よりオープン: HMS を使用してメタストアをクエリする場合、メタストアクライアントが提供するメソッドしか使用できません。メタデータベースへの直接接続により、SQL を使用してクエリを実行できます。 |
Hive Metastore サービス | より安全: メタストアに対して Kerberos 認証を有効にできます。クライアントは、メタストアからデータを読み取るために Kerberos 認証に合格する必要があります。 より柔軟: クライアントは HMS のみを認識し、基盤となるメタデータベースは認識しません。これにより、クライアントを変更することなく、いつでも基盤となるメタデータベースを切り替えることができます。 |
Data Lake Formation (DLF) を使用したメタデータ取得のパフォーマンスは、Hive Metastore サービスを使用したメタデータ取得のパフォーマンスと似ています。
制限事項
メタデータウェアハウステナントのスーパー管理者またはシステム管理者ロールを持つユーザーのみがシステムを初期化できます。
メタデータウェアハウステナントの スーパー管理者 または システム管理者 の認証情報を安全に保管してください。スーパー管理者 としてシステムにログインした後の操作は、注意して行ってください。
手順
Dataphin のホームページで、上部のメニューバーから [管理ハブ] > [システム設定] を選択します。
左側のナビゲーションウィンドウで、[システム O&M] > [ウェアハウス設定] を選択します。[メタデータデプロイメント] ウィザードページで、インストール手順を注意深く読み、[開始] をクリックします。
[初期化エンジンタイプの選択] ページで、Hadoop エンジンタイプを選択します。
重要メタデータウェアハウスがすでに初期化されている場合、システムは最後に成功した初期化で使用されたエンジンをデフォルトとします。互換性のないコンピュートエンジンに切り替えると、管理機能は利用できなくなります。
サポートされている Hadoop エンジンタイプには、Aliyun E-MapReduce 3.X、Aliyun E-MapReduce 5.x、CDH 5.X、CDH 6.X、FusionInsight 8.X、AsiaInfo DP 5.3 Hadoop、および Cloudera Data Platform 7.x があります。パラメーター構成は、すべての Hadoop ベースのコンピュートエンジンで同じです。このトピックでは、Aliyun E-MapReduce 3.X を例として使用します。
クラスター構成
説明OSS-HDFS クラスターのストレージは、Aliyun E-MapReduce 5.x Hadoop エンジンタイプでのみサポートされています。
HDFS クラスター ストレージ
パラメーター
説明
NameNode
NameNode は、Hadoop 分散ファイルシステム (HDFS) のファイルシステムの名前空間とクライアントのアクセス権限を管理します。
[追加] をクリックします。
[NameNode の追加] ダイアログボックスで、NameNode のホスト名とポート番号を入力し、[OK] をクリックします。
情報を入力すると、システムは必要なフォーマットで構成を自動的に生成します。例:
host=hostname,webUiPort=50070,ipcPort=8020。
構成ファイル
クラスター構成ファイルをアップロードして、クラスターパラメーターを構成します。システムは、core-site.xml や hdfs-site.xml などのクラスター構成ファイルのアップロードをサポートしています。
HMS を使用してメタデータを取得するには、hdfs-site.xml、hive-site.xml、core-site.xml、および hivemetastore-site.xml ファイルをアップロードする必要があります。コンピュートエンジンが FusionInsight 8.X または E-MapReduce 5.x Hadoop の場合、hivemetastore-site.xml ファイルもアップロードする必要があります。
履歴ログ
クラスターのログパスを構成します。例:
tmp/hadoop-yarn/staging/history/done。認証タイプ
サポートされている認証方式は、[認証なし] と [Kerberos] です。Kerberos は、対称キー技術に基づく身分認証プロトコルです。クラスターコンポーネント間の認証によく使用されます。Kerberos を有効にすると、クラスターのセキュリティが向上します。
Kerberos 認証を有効にする場合は、次のパラメーターを構成します:
Kerberos 構成メソッド
KDC サーバー: Kerberos 認証を支援するために、統一された KDC サービスアドレスを入力します。
Krb5 ファイル構成: Kerberos 認証用の krb5 ファイルをアップロードします。
HDFS 構成
HDFS Keytab ファイル: HDFS keytab ファイルをアップロードします。
HDFS プリンシパル: Kerberos 認証のプリンシパル名を入力します。例:
XXXX/hadoopclient@xxx.xxx。
OSS-HDFS クラスター ストレージ (Aliyun E-MapReduce 5.x Hadoop)
初期化エンジンとして Aliyun E-MapReduce 5.x Hadoop を選択した場合、クラスターのストレージクラスを OSS-HDFS に設定できます。
パラメーター
説明
クラスター ストレージ
次のいずれかの方法でクラスターのストレージタイプを表示できます:
クラスターが作成されていない場合: E-MapReduce 5.x Hadoop クラスター作成ページで、作成するクラスターのストレージタイプを表示できます。
クラスターがすでに作成されている場合: E-MapReduce 5.x Hadoop クラスターの製品ページで、作成されたクラスターのストレージタイプを表示できます。
クラスター ストレージのルートディレクトリ
クラスター ストレージのルートディレクトリを入力します。この情報は、E-MapReduce 5.x Hadoop クラスター情報を表示することで取得できます。
重要入力したパスにエンドポイントが含まれている場合、Dataphin はデフォルトでそれを使用します。含まれていない場合は、core-site.xml ファイルのバケットレベルのエンドポイントが使用されます。バケットレベルのエンドポイントが構成されていない場合は、core-site.xml ファイルのグローバルエンドポイントが使用されます。詳細については、「Alibaba Cloud OSS-HDFS サービス (JindoFS サービス) エンドポイント構成」をご参照ください。
構成ファイル
クラスター構成ファイルをアップロードして、クラスターパラメーターを構成します。システムは、core-site.xml や hive-site.xml などのクラスター構成ファイルのアップロードをサポートしています。HMS を使用してメタデータを取得するには、hive-site.xml、core-site.xml、および hivemetastore-site.xml ファイルをアップロードする必要があります。
履歴ログ
クラスターのログパスを構成します。例:
tmp/hadoop-yarn/staging/history/done。AccessKey ID、AccessKey Secret
クラスターの OSS にアクセスするための AccessKey ID と AccessKey Secret を入力します。AccessKey を表示するには、「AccessKey の表示」をご参照ください。
重要ここで構成する AccessKey ペアは、core-site.xml ファイルで構成されている AccessKey ペアよりも優先度が高くなります。
認証タイプ
サポートされている認証方式は、[認証なし] と [Kerberos] です。Kerberos は、対称キー技術に基づく身分認証プロトコルです。クラスターコンポーネント間の認証によく使用されます。Kerberos を有効にすると、クラスターのセキュリティが向上します。Kerberos 認証を有効にする場合は、Kerberos 認証用の krb5 ファイルをアップロードする必要があります。
Hive 構成
パラメーター
説明
JDBC URL
Hive に接続するための Java Database Connectivity (JDBC) URL を入力します。
認証タイプ
クラスターの認証方式を [認証なし] に設定した場合、Hive の認証方式を [認証なし] または [LDAP] に設定できます。
クラスターの認証方式を [Kerberos] に設定した場合、Hive の認証方式を [認証なし]、[LDAP]、または [Kerberos] に設定できます。
説明この認証方式は、Aliyun E-MapReduce 3.x、Aliyun E-MapReduce 5.x、Cloudera Data Platform 7.x、AsiaInfo DP 5.3、および Huawei FusionInsight 8.x でのみサポートされています。
ユーザー名、パスワード
Hive にアクセスするためのユーザー名とパスワード。
認証なし: ユーザー名を入力します。
LDAP: ユーザー名とパスワードを入力します。
Kerberos: ユーザー名やパスワードを入力する必要はありません。
Hive Keytab ファイル
このパラメーターは、Kerberos 認証を有効にした後に構成します。
keytab ファイルをアップロードします。keytab ファイルは Hive サーバーから取得できます。
Hive プリンシパル
このパラメーターは、Kerberos 認証を有効にした後に構成します。
Hive keytab ファイルに対応する Kerberos 認証のプリンシパル名を入力します。例:
XXXX/hadoopclient@xxx.xxx。実行エンジン
必要に応じて適切な実行エンジンを選択します。サポートされている実行エンジンは、コンピュートエンジンによって異なります。次のリストは、サポートされている実行エンジンを説明しています:
Aliyun E-MapReduce 3.X: MapReduce および Spark。
Aliyun E-MapReduce 5.X: MapReduce および Tez。
CDH 5.X: MapReduce。
CDH 6.X: MapReduce、Spark、および Tez。
FusionInsight 8.X: MapReduce。
AsiaInfo DP 5.3 Hadoop: MapReduce。
Cloudera Data Platform 7.x: Tez。
説明実行エンジンを設定すると、メタデータウェアハウステナントのコンピュート設定、コンピュートソース、およびノードは、指定された Hive 実行エンジンを使用します。メタデータウェアハウスを再初期化すると、これらの項目は新しい実行エンジンを使用するように初期化されます。
メタデータ取得メソッド
Dataphin は、メタデータ取得のために、メタデータベース、Hive Metastore サービス (HMS)、および DLF の 3 つのメソッドをサポートしています。必要な構成情報は、選択したメソッドによって異なります。以下のセクションでは、これらのメソッドについて詳しく説明します。
メタデータベース取得
パラメーター
説明
データベースタイプ
Hive メタデータベースのタイプを選択します。Dataphin は MySQL をサポートしています。
サポートされている MySQL のバージョンは、MySQL 5.1.43、MySQL 5.6/5.7、および MySQL 8 です。
JDBC URL
ターゲットデータベースの JDBC 接続アドレスを入力します。例:
MySQL データベースの接続アドレスのフォーマットは
jdbc:mysql://host:port/dbnameユーザー名、パスワード
ターゲットデータベースのユーザー名とパスワード。
HMS 取得
HMS を使用してメタデータベースからメタデータを取得し、Kerberos が有効になっている場合は、keytab ファイルをアップロードしてプリンシパルを指定する必要があります。
パラメーター
説明
Keytab ファイル
Hive メタストアの Kerberos 認証用の keytab ファイル。
プリンシパル
Hive メタストアの Kerberos 認証用のプリンシパル。
DLF 取得
重要DLF 取得メソッドは、Aliyun EMR 5.x Hive 3.1.x バージョンとのみ互換性があります。
パラメーター
説明
エンドポイント
クラスターが配置されているリージョンの DLF エンドポイントを入力します。詳細については、「リージョンとエンドポイント」をご参照ください。
AccessKey ID、AccessKey Secret
クラスターが属するアカウントの AccessKey ID と AccessKey シークレットを入力します。
[ユーザー情報管理] ページで AccessKey ID と AccessKey シークレットを取得できます。
メタデータプロダクションプロジェクト
Meta プロジェクト: メタデータのプロダクションと処理のための論理プロジェクトスペースを指定します。このパラメーターを
dataphin_metaに設定します。初期化の失敗を防ぐため、再初期化中にこの名前を変更しないでください。
[接続テスト] をクリックします。接続テストが成功したら、[次へ] をクリックします。
初期化ページで、[開始] をクリックします。
説明システムの初期化には約 15 分かかります。
成功メッセージが表示されたら、[完了] をクリックして構成を完了します。
次のステップ
システムメタデータを初期化した後、Dataphin インスタンスのコンピュートエンジンを設定する必要があります。メタデータウェアハウスエンジンが Hadoop に設定されている場合、ビジネステナントエンジンは MaxCompute を除く任意のエンジンタイプに設定できます。詳細については、「コンピュート設定」をご参照ください。