Dataphin メタデータウェアハウスは、ビジネスメタデータとそれに対応するコンピュートエンジンのメタデータを一元管理する Dataphin のデータウェアハウスです。これは、メタデータウェアハウステナント (OPS テナント) 内の Dataphin プロジェクトに存在し、定期的なデータ統合ノード、SQL スクリプトノード、および Shell ノードで構成されます。メタデータウェアハウスの初期化は、Dataphin システムのコンピュートエンジンタイプを構成し、メタデータを初期化するプロセスです。このトピックでは、Transwarp TDH をコンピュートエンジンとして使用してメタデータウェアハウスを初期化する方法について説明します。
前提条件
Transwarp TDH をメタデータウェアハウスとして使用するには、メタデータベースへのアクセスを有効にするか、メタデータ取得のために Hive Metastore サービスを提供する必要があります。
TDH Inceptor をメタデータウェアハウスとして使用する場合、または初期化中に TDH Inceptor をメタデータ取得メソッドとして使用する場合は、次の条件を満たす必要があります。
dataphin_meta という名前のプロジェクトが TDH Inceptor に作成されていること。
メタデータウェアハウスの初期化中に TDH Inceptor 用に構成されたユーザーは、dataphin_meta プロジェクト内のテーブルを作成および書き込みする権限を持っている必要があります。
コンピュートエンジンアカウントには、dataphin_meta プロジェクトのマテリアライズドテーブルに対する読み取り権限が必要です。

背景情報
Dataphin は、メタデータベースへの直接接続または Hive Metastore Service を介したメタデータ取得をサポートしています。次の表は、各メソッドの長所と短所を比較したものです。

メタデータ取得メソッド | 長所と短所 |
メタデータベースへの直接接続 | 高パフォーマンス: 基盤となるメタデータベースに直接接続します。これにより、中間の Hive Metastore Service (HMS) をバイパスし、メタデータを取得する際のクライアントのパフォーマンスを向上させ、ネットワーク遅延を削減します。 よりオープン: HMS サービスを介してメタストアをクエリする場合、メタストアクライアントが提供するメソッドしか使用できません。メタデータベースに直接接続すると、SQL を自由に使用してクエリを実行できます。 |
Hive Metastore Service | より安全: メタストアに対して Kerberos 認証を有効にできます。クライアントは、メタストアからデータを読み取るために Kerberos 認証を使用する必要があります。 より柔軟: クライアントは HMS サービスのみを認識し、基盤となるメタデータベースは認識しません。これにより、クライアントの構成を変更することなく、いつでも基盤となるデータベースを切り替えることができます。 |
制限事項
[MySQL メタデータベース]、[Inceptor メタデータベース]、または [HMS] を選択してメタデータを取得すると、取得したメタデータの一部が欠落していたり、不正確であったりする場合があります。
[MySQL メタデータベース] または [HMS] を使用してメタデータを取得する場合、次の情報は取得できません。
資産概要、データプレート、プロジェクトのデータボリューム情報。
資産カタログ内のテーブルデータボリューム、パーティションデータボリューム、およびパーティションレコード数。
リソース管理のためのストレージ関連メトリック。
メタデータウェアハウス共有モデルにおける dim_dataphin_table および dim_dataphin_partition のデータボリュームとレコード数。
[TDH Inceptor システムライブラリ] を使用してメタデータを取得する場合、次の情報は取得できません。
資産カタログ内のパーティションレコード数。
メタデータウェアハウス共有モデルにおける dim_dataphin_table および dim_dataphin_partition のレコード数。
TDH Inceptor をメタデータウェアハウスのコンピュートエンジンとして使用する場合、Dataphin はユーザー定義関数 (UDF) をサポートしません。
UDF 登録用に重複した名前の JAR パッケージを追加すると、Inceptor サービスが応答を停止し、再起動に失敗する可能性があります。名前は異なるが同一のクラスファイルを含む JAR パッケージを追加すると、UDF の実行結果が予測不能になる可能性があります。したがって、TDH Inceptor をメタデータウェアハウスのコンピュートエンジンとして使用する場合、Dataphin は UDF をサポートしません。UDF を追加するには、TDH Inceptor クライアントを使用して追加する必要があります。UDF の名前とそのクラス名がクラスター内で一意であることを確認してください。
権限
メタデータウェアハウステナントのスーパー管理者またはシステム管理者のロールを持つアカウントのみがシステムを初期化できます。
メタデータウェアハウステナントのスーパー管理者またはシステム管理者のアカウントとパスワードは安全に保管してください。メタデータウェアハウステナントのスーパー管理者としてログインして操作を実行する際は、注意してください。
手順
Dataphin のホームページの上部メニューバーで、[管理センター] > [システム設定] を選択します。
ナビゲーションウィンドウで、[システム O&M] > [メタデータウェアハウス設定] を選択します。
[メタデータデプロイメント] ウィザードで、[開始] をクリックします。
[初期化エンジンタイプの選択] ページで、[Transwarp TDH 6.x] または [Transwarp TDH 9.3.x] エンジンタイプを選択します。
重要互換性のないコンピュートエンジンに切り替えると、管理機能は使用できなくなります。メタデータウェアハウスがすでに初期化されている場合、最後に成功した初期化で使用されたエンジンがデフォルトで選択されます。
[次へ] をクリックします。
[パラメーターチェック] ページで、次のパラメーターを構成します。パラメーターは Transwarp TDH 6.x と Transwarp TDH 9.3.x で同じです。
領域
パラメータ
説明
[クラスタ構成]
ネームノード
Hadoop 分散ファイルシステム (HDFS) のファイルシステム名前空間とクライアントアクセス権限を管理します。
[追加] をクリックします。
[NameNode の追加] ダイアログボックスで、NameNode のホスト名とポート番号を入力し、[OK] をクリックします。
システムは対応するフォーマットを自動的に生成します。例:
host=start,webUiPort=50070,ipcPort=8020。
[構成ファイル]
クラスター構成ファイルをアップロードして、クラスターパラメーターを構成します。システムは、core-site.xml や hdfs-site.xml などのクラスター構成ファイルのアップロードをサポートしています。
[履歴ログ]
クラスターのログパス。例:
tmp/hadoop-yarn/staging/history/done。認証タイプ
認証方式。サポートされているメソッドは、認証なしと Kerberos です。Kerberos は、対称キー技術に基づく身分認証プロトコルであり、クラスターコンポーネント間の認証によく使用されます。Kerberos を有効にすると、クラスターのセキュリティが向上します。
Kerberos を選択した場合は、[Kerberos 構成メソッド] と [HDFS] パラメーターも構成する必要があります。
Kerberos 設定方法
KDC サーバー: キー配布センター (KDC) の統一サービスアドレスを入力して、Kerberos 認証を支援します。複数のアドレスをカンマ (,) で区切って入力できます。
Krb5 ファイル構成: Kerberos 認証用の krb5 ファイルをアップロードします。
HDFS Keytab ファイル: HDFS keytab ファイルをアップロードします。
HDFS プリンシパル: Kerberos 認証のプリンシパル名を入力します。例:
XXXX/hadoopclient@xxx.xxx。
Inceptor 設定
[JDBC URL]
Inceptor に接続するための Java Database Connectivity (JDBC) URL を入力します。
[認証タイプ]
Inceptor の認証方式。エンジンの構成に基づいて、[認証なし]、[LDAP]、または [Kerberos] から選択します。
認証なし: 認証は必要ありません。Inceptor にアクセスするためのユーザー名とパスワードを構成します。
LDAP: Lightweight Directory Access Protocol (LDAP) 認証。Inceptor にアクセスするためのユーザー名とパスワードを構成します。
Kerberos: クラスターの認証方式は Kerberos である必要があります。Kerberos タスクの場合、keytab ファイルをアップロードし、プリンシパルアドレスを構成する必要があります。
Keytab ファイル: Kerberos 認証用の keytab ファイルをアップロードします。
プリンシパル: Kerberos 認証のプリンシパル名。
[メタデータベース構成]
[メタデータ取得方法]
メタデータを取得するためのメソッド。サポートされているメソッドは、メタデータベースへの直接接続と Hive Metastore Service (HMS) です。Kerberos 認証で HMS を使用する場合は、keytab ファイルをアップロードしてプリンシパルを入力します。
Keytab ファイル: Hive メタストアの Kerberos 認証用の keytab ファイル。
プリンシパル: Hive メタストアの Kerberos 認証のプリンシパル。
データベースタイプ
このパラメーターは、メタデータベースへの直接接続メソッドを使用する場合に必要です。サポートされているデータベースは、MySQL、[PostgreSQL]、および [Inceptor] です。
[MySQL]: サポートされているバージョンは 5.1.43、5.6/5.7、および 8.0 です。
[Inceptor]: 認証なし、LDAP、および Kerberos 認証をサポートします。
JDBC URL
ターゲットデータベースの JDBC 接続アドレスを入力します。例:
MySQL データベース接続アドレスのフォーマット:
jdbc:mysql://host:port/dbname。Inceptor データベース接続アドレスのフォーマット:
jdbc:hive2://host:port/dbname。ユーザー名、パスワード
ターゲットデータベースのユーザー名とパスワード。Inceptor の認証方式が認証なしの場合、ユーザー名のみが必要です。Kerberos 認証の場合、keytab ファイルをアップロードしてプリンシパルを入力します。
[メタデータ生成プロジェクト]
メタプロジェクト
メタデータの作成と処理のための論理プロジェクト。これを dataphin_meta に設定します。再初期化中に名前を変更しないようにして、失敗を防ぎます。
[接続テスト] をクリックします。接続テストが成功したら、[次へ] をクリックします。
初期化ページで、[開始] をクリックします。
説明システムの初期化には約 15 分かかります。
成功メッセージが表示されたら、[完了] をクリックして構成を完了します。
次のステップ
システムメタデータを初期化した後、Dataphin インスタンスのコンピュートエンジンを設定できます。メタデータウェアハウスエンジンが Transwarp TDH に設定されている場合、ビジネステナントエンジンを MaxCompute を除く任意のエンジンタイプに設定できます。詳細については、「コンピュート設定」をご参照ください。