テナントのすべてのメタデータ取得タスクは、メタデータウェアハウステナントで実行されます。メタデータセンター機能を使用する前に、メタデータウェアハウステナントで初期設定を完了する必要があります。この設定では、メタデータ取得タスクを実行するためのコンピュートソースを指定します。このトピックでは、メタデータセンターの設定方法について説明します。
制限事項
メタデータセンターのコンピュートエンジンタイプは、メタデータウェアハウスのエンジンタイプと一致している必要があります。
メタデータセンター機能は、MaxCompute、E-MapReduce 5.x Hadoop、E-MapReduce 3.x Hadoop、CDH 5.x Hadoop、CDH 6.x Hadoop、Cloudera Data Platform 7.x、Huawei FusionInsight 8.x Hadoop、および AsiaInfo DP5.3 Hadoop のコンピュートエンジンをサポートしています。
メタデータセンターの初期化後に、再初期化することはできません。
権限
メタデータウェアハウステナントのスーパー管理者またはシステム管理者は、メタデータセンターを初期化できます。
用語集
メタデータ:データに関するデータであり、技術メタデータ、ビジネスメタデータ、管理メタデータが含まれます。データの特性、ソース、フォーマット、関係性を記述し、データの検索、利用、維持を支援します。
メタデータセンター:さまざまな業務システムからメタデータを抽出し、処理、一元的に保存、管理するシステムです。データガバナンスをサポートし、組織内でのデータの整理、検索、分析を向上させます。
メタデータセンターの初期化
スーパー管理者またはシステム管理者としてメタデータウェアハウステナントにログインします。
Dataphin のホームページの上部のメニューバーで、[管理センター] > [システム設定] を選択します。
左側のナビゲーションウィンドウで、[システム O&M] の下にある [メタデータセンター設定] をクリックして、[メタデータセンター初期化設定] ページを開きます。
メタデータウェアハウスのコンピュートエンジンに基づき、メタデータセンターの初期化に使用するコンピュートソースタイプを選択します。サポートされているエンジンは MaxCompute と Hadoop です。
MaxCompute
パラメーター
説明
[コンピュートソースタイプ]
[MaxCompute] コンピュートエンジンを選択します。
エンドポイント
Dataphin インスタンスが配置されている MaxCompute リージョンのエンドポイントを設定します。リージョンとネットワークタイプごとの MaxCompute エンドポイントの詳細については、「MaxCompute エンドポイント」をご参照ください。
プロジェクト名
これは MaxCompute プロジェクトの名前であり、DataWorks ワークスペースの名前ではありません。
MaxCompute コンソールにログインします。左上隅でリージョンを切り替えます。プロジェクト管理タブでプロジェクト名を確認できます。
[AccessKey ID]、[AccessKey Secret]
MaxCompute プロジェクトにアクセスする権限を持つアカウントの AccessKey ID と AccessKey Secret を入力します。
既存の AccessKey を使用するか、「AccessKey の作成」を参照して新しい AccessKey を作成します。
説明漏洩のリスクを軽減するため、AccessKey Secret は作成時にのみ表示され、後から取得することはできません。安全に保管してください。
Dataphin プロジェクトと MaxCompute プロジェクト間の安定した接続を確保するために、MaxCompute プロジェクト管理者の AccessKey ペアを使用してください。
メタデータ取得を正常に行うために、MaxCompute プロジェクトの AccessKey ペアを変更しないでください。
Hadoop
[コンピュートソースタイプ]:
HDFS クラスター ストレージ:このオプションは、[E-MapReduce 5.x Hadoop]、[E-MapReduce 3.x Hadoop]、[CDH 5.x Hadoop]、[CDH 6.x Hadoop]、[Cloudera Data Platform 7.x]、[Huawei FusionInsight 8.x Hadoop]、および [AsiaInfo DP5.3 Hadoop] コンピュートエンジンをサポートしています。
OSS-HDFS クラスター ストレージ:このオプションは、[E-MapReduce 5.x Hadoop] コンピュートエンジンのみをサポートしています。
クラスター構成
HDFS クラスター ストレージ
パラメーター
説明
ネームノード
NameNode は、HDFS のファイルシステム名前空間と外部クライアントのアクセス権限を管理します。
[追加] をクリックします。
[NameNode の追加] ダイアログボックスで、NameNode のホスト名とポート番号を入力し、[OK] をクリックします。
情報を入力すると、システムは必要なフォーマットで設定を自動的に生成します。例:
host=hostname,webUiPort=50070,ipcPort=8020。
設定ファイル
クラスター設定ファイルをアップロードして、クラスターパラメーターを設定します。システムは core-site.xml や hdfs-site.xml などのファイルをサポートしています。
HMS メソッドを使用してメタデータを取得する場合、hdfs-site.xml、hive-site.xml、core-site.xml、および hivemetastore-site.xml ファイルをアップロードする必要があります。コンピュートエンジンが FusionInsight 8.X または E-MapReduce 5.x Hadoop の場合、hivemetastore-site.xml ファイルもアップロードする必要があります。
履歴ログ
クラスターのログパスを設定します。例:
tmp/hadoop-yarn/staging/history/done。認証タイプ
[認証なし] と [Kerberos] 認証をサポートしています。Kerberos は、対称キー技術を使用する身分認証プロトコルです。クラスターコンポーネント間の認証によく使用されます。Kerberos を有効にすると、クラスターのセキュリティが向上します。
Kerberos 認証を有効にする場合は、次のパラメーターを設定します:
[Kerberos 設定方法]
[KDC サーバー]:キー配布センター (KDC) の統一サービスアドレスを入力して、Kerberos 認証を補助します。
[krb5 ファイル設定]:Kerberos 認証用の krb5 ファイルをアップロードします。
HDFS 構成
[HDFS Keytab ファイル]:HDFS Keytab ファイルをアップロードします。
[HDFS プリンシパル]:Kerberos 認証のプリンシパルを入力します。例:
XXXX/hadoopclient@xxx.xxx。
OSS-HDFS クラスター ストレージ
パラメーター
説明
クラスター ストレージ
クラスターのストレージクラスは、次の方法で確認できます:
クラスターを作成していない場合:E-MapReduce 5.x Hadoop クラスター作成ページで、クラスターのストレージクラスを表示できます。
クラスター作成後:E-MapReduce 5.x Hadoop クラスターの詳細ページで、クラスターのストレージタイプを表示できます。
[クラスター ストレージのルートディレクトリ]
クラスター ストレージのルートディレクトリを入力します。これは E-MapReduce 5.x Hadoop クラスター情報から取得できます。次の図に例を示します。
重要入力したパスにエンドポイントが含まれている場合、Dataphin はデフォルトでそのエンドポイントを使用します。パスにエンドポイントが含まれていない場合は、core-site.xml で設定されたバケットレベルのエンドポイントが使用されます。バケットレベルのエンドポイントが設定されていない場合は、core-site.xml のグローバルエンドポイントが使用されます。詳細については、「Alibaba Cloud OSS-HDFS Service (JindoFS Service) エンドポイント設定」をご参照ください。
設定ファイル
クラスター設定ファイルをアップロードして、クラスターパラメーターを設定します。システムは core-site.xml や hive-site.xml などのファイルをサポートしています。HMS メソッドを使用してメタデータを取得する場合、hive-site.xml、core-site.xml、および hivemetastore-site.xml ファイルをアップロードする必要があります。
履歴ログ
クラスターのログパスを設定します。例:
tmp/hadoop-yarn/staging/history/done。[AccessKey ID]、[AccessKey Secret]
OSS にアクセスするための AccessKey ID と AccessKey Secret を入力します。既存の AccessKey を使用するか、「AccessKey の作成」を参照して新しい AccessKey を作成します。
説明漏洩のリスクを軽減するため、AccessKey Secret は作成時にのみ表示され、後から取得することはできません。安全に保管してください。
重要ここで設定する AccessKey ペアは、core-site.xml ファイルで設定された AccessKey ペアよりも優先されます。
認証タイプ
[認証なし] と [Kerberos] 認証をサポートしています。Kerberos は、対称キー技術を使用する身分認証プロトコルです。クラスターコンポーネント間の認証によく使用されます。Kerberos を有効にすると、クラスターのセキュリティが向上します。Kerberos 認証を有効にする場合は、krb5 ファイルをアップロードする必要があります。
Hive の設定
パラメーター
説明
[JDBC URL]
Hive に接続するための Java Database Connectivity (JDBC) URL を入力します。
認証タイプ
クラスターの認証方式を「認証なし」に設定した場合、Hive の認証方式を [認証なし] または [LDAP] に設定できます。
クラスターの認証方式を「Kerberos」に設定した場合、Hive の認証方式を [認証なし]、[LDAP]、または [Kerberos] に設定できます。
説明認証方式は、コンピュートエンジンが E-MapReduce 3.x、E-MapReduce 5.x、Cloudera Data Platform 7.x、AsiaInfo DP5.3、または Huawei FusionInsight 8.X の場合に設定できます。
ユーザー名, パスワード
Hive にアクセスするためのユーザー名とパスワードです。
認証なし:ユーザー名を入力します。
LDAP 認証:ユーザー名とパスワードを入力します。
Kerberos 認証:これらのフィールドは必須ではありません。
Hive Keytab ファイル
このパラメーターは、Kerberos 認証を有効にする場合に必須です。
Keytab ファイルをアップロードします。Keytab ファイルは Hive サーバーから取得できます。
[Hive プリンシパル]
このパラメーターは、Kerberos 認証を有効にする場合に必須です。
Hive Keytab ファイルに対応する Kerberos 認証プリンシパルを入力します。例:
XXXX/hadoopclient@xxx.xxx。実行エンジン
必要に応じて適切な実行エンジンを選択します。サポートされている実行エンジンは、コンピュートエンジンによって異なります。
E-MapReduce 3.X:MapReduce、Spark。
E-MapReduce 5.X:MapReduce、Tez。
CDH 5.X:MapReduce。
CDH 6.X:MapReduce、Spark、Tez。
FusionInsight 8.X:MapReduce。
AsiaInfo DP 5.3 Hadoop:MapReduce。
Cloudera Data Platform 7.x:Tez。
説明実行エンジンを設定すると、メタデータウェアハウステナントのコンピュート設定、コンピュートソース、およびノードは、指定された Hive 実行エンジンを使用します。設定を再初期化すると、これらのコンポーネントは新しく指定された実行エンジンを使用するようにリセットされます。
メタデータ取得方法
メタデータは、メタデータベースまたは Hive Metastore Service (HMS) を使用して取得できます。必要な設定は、選択したメソッドによって異なります。
メタデータベースからメタデータを取得
パラメーター
説明
データベースタイプ
Hive メタデータベースのデータベースタイプとしてサポートされているのは MySQL のみです。
サポートされている MySQL のバージョン:MySQL 5.1.43、MYSQL 5.6/5.7、および MySQL 8。
[JDBC URL]
ターゲットデータベースの JDBC URL を入力します。例:
jdbc:mysql://host:port/dbname。ユーザー名、パスワード
ターゲットデータベースのユーザー名とパスワードです。
HMS の取得
HMS メソッドを使用し、Kerberos が有効になっている場合は、Keytab ファイルをアップロードし、プリンシパルを指定する必要があります。
パラメーター
説明
キータブファイル
Hive メタストアの Kerberos 認証 Keytab ファイルです。
プリンシパル
Hive メタストアの Kerberos 認証プリンシパルです。
必要なパラメーターを設定した後、[接続テスト] をクリックして Dataphin への接続を検証します。
接続テストに合格したら、[OK して初期化を開始] をクリックします。システムは、必要な権限とメタデータウェアハウスの初期化設定を確認します。
権限:現在のユーザーがメタデータウェアハウステナントのスーパー管理者またはシステム管理者であるかどうかを確認します。
メタデータウェアハウスの初期化設定:メタデータウェアハウスが正常に初期化されているかどうかを確認します。
チェックに合格すると、初期化プロセスが開始されます。このプロセスでは、コンピュートソース、プロジェクト、データソースが作成され、初期 DDL 文が実行されます。プロセスが完了すると、メタデータセンターが初期化されます。
関連ドキュメント
メタデータセンターを初期化すると、データベースからメタデータを収集し、分析と管理のために Dataphin にインポートできます。詳細については、「メタデータ取得タスクの作成と管理」をご参照ください。