すべてのプロダクト
Search
ドキュメントセンター

Dataphin:メタデータセンター設定

最終更新日:Feb 06, 2025

メタデータウェアハウステナント内で動作するメタデータセンターは、すべてのメタデータ取得タスクを実行します。 メタデータセンター機能を利用するには、メタデータウェアハウステナントでメタデータセンター設定を初期化し、メタデータ取得タスク実行のためのコンピューティングソース情報を定義します。 このトピックでは、メタデータセンターのセットアッププロセスについて説明します。

制限事項

  • メタデータセンター用に選択されたコンピューティングエンジンは、メタデータウェアハウスで指定されたエンジンの種類と一致している必要があります。

  • メタデータセンター機能は、MaxCompute、E-MapReduce 5.x Hadoop、E-MapReduce 3.x HadoopCDH 5.x Hadoop、CDH 6.x Hadoop、Cloudera Data Platform 7.x、Huawei FusionInsight 8.x Hadoop、AsiaInfo DP 5.3 Hadoop など、いくつかのコンピューティングエンジンと互換性があります。

  • メタデータセンターが初期化されると、再初期化はできません。

権限の説明

メタデータウェアハウステナントのスーパー管理者またはシステム管理者のみが、メタデータセンターの初期化構成を実行できます。

用語集

  • メタデータ: データに関する情報であり、技術的、ビジネス的、および管理的側面を網羅しています。 データの属性、発生源、形式、および関係の詳細を示し、データの取得、利用、およびメンテナンスに役立ちます。

  • メタデータセンター: さまざまな業務システムからメタデータを抽出し、処理、保存、管理するための専用システムです。 データガバナンスをサポートし、組織内でのデータの編成、取得、分析を改善します。

メタデータセンターの初期化構成

  1. スーパー管理者またはシステム管理者アカウントを使用して、メタデータウェアハウステナントにサインインします。

  2. Dataphin ホームページの上部のメニューバーから、[管理センター] > [システム設定] に移動します。

  3. 左側のナビゲーションウィンドウで、[システム運用とメンテナンス] をクリックし、[メタデータセンター設定] を選択して [メタデータセンターの初期構成] ページにアクセスします。

  4. メタデータウェアハウスで構成されているコンピューティングエンジンに基づいて、メタデータセンターの初期化のためのコンピューティングソースの種類を選択します。MaxCompute および Hadoop エンジンがサポートされています。

    MaxCompute

    パラメーター

    説明

    コンピューティングソースの種類

    MaxCompute コンピューティングエンジンを選択します。

    エンドポイント

    Dataphin インスタンスが配置されている MaxCompute リージョンのエンドポイントを構成します。 さまざまなリージョンとネットワークタイプにわたる MaxCompute エンドポイントの詳細については、「MaxCompute エンドポイント」を参照してください。

    プロジェクト名

    これは MaxCompute プロジェクトの名前であり、DataWorks ワークスペース名ではありません。

    特定の MaxCompute プロジェクト名を表示するには、MaxCompute コンソールにログインし、左上隅でリージョンを切り替え、プロジェクト管理タブに移動します。 image

    AccessKey IDアクセスキーのシークレット

    MaxCompute プロジェクトへのアクセス権を持つアカウントの AccessKey ID とアクセスキーのシークレットを入力します。

    AccessKey ID とアクセスキーのシークレットは、ユーザー情報管理ページから取得できます。

    image

    • Dataphin プロジェクトスペースと MaxCompute プロジェクト間の通常の接続を維持するには、MaxCompute プロジェクト管理者の AccessKey を使用することをお勧めします。

    • メタデータ取得を中断しないように、MaxCompute プロジェクトの AccessKey を変更しないでください。

    Hadoop

    • コンピューティングソースの種類:

      • HDFS クラスタストレージ: E-mapreduce 5.x HadoopE-mapreduce 3.x HadoopCDH 5.x HadoopCDH 6.x HadoopCloudera Data Platform 7.xHuawei Fusioninsight 8.x HadoopAsiainfo DP 5.3 Hadoop コンピューティングエンジンの選択をサポートします。

      • OSS-HDFS クラスタストレージ: E-mapreduce 5.x Hadoop コンピューティングエンジンのみをサポートします。

    • クラスタ構成

      HDFS クラスタストレージ

      パラメーター

      説明

      NameNode

      NameNode は、HDFS でファイルシステムの名前空間とクライアントのアクセス権限を管理します。

      1. [追加] をクリックします。

      2. [namenode の追加] ダイアログボックスで、NameNode のホスト名とポート番号を入力し、[OK] をクリックします。

        必要な情報を入力すると、host=hostname,webUiPort=50070,ipcPort=8020 などの対応する形式が自動的に生成されます。

      構成ファイル

      • クラスタパラメーターを設定するために、クラスタ構成ファイルをアップロードします。 システムは、core-site.xml、hdfs-site.xml、およびその他の構成ファイルのアップロードをサポートしています。

      • HMS メソッドを使用してメタデータを取得するには、hdfs-site.xml、hive-site.xml、core-site.xml、および hivemetastore-site.xml をアップロードする必要があります。 FusionInsight 8.X および E-MapReduce 5.x Hadoop コンピューティングエンジンでは、hivemetastore-site.xml ファイルも必要です。

      履歴ログ

      クラスタのログパスを設定します (例: tmp/hadoop-yarn/staging/history/done)。

      認証タイプ

      認証なし および Kerberos 認証方式をサポートします。 Kerberos は、対称鍵ベースの身元認証プロトコルであり、一般的にクラスタコンポーネントの認証に使用され、有効にするとセキュリティが強化されます。

      Kerberos 認証が有効になっている場合は、次のパラメーターを構成します。

      • Kerberos 構成方法

        • KDC サーバー: Kerberos 認証を容易にするために、KDC の統合サービスアドレスを入力します。

        • Krb5 ファイル構成: Kerberos 認証に必要な Krb5 ファイルをアップロードします。

      • HDFS 構成

        • HDFS Keytab ファイル: HDFS Keytab ファイルをアップロードします。

        • HDFS プリンシパル: Kerberos 認証のプリンシパル名を入力します (例: XXXX/hadoopclient@xxx.xxx)。

      OSS-HDFS クラスタストレージ

      パラメーター

      説明

      クラスタストレージ

      次の方法を使用して、クラスタストレージの種類を判別します。

      • クラスタ作成前: クラスタストレージの種類は、E-MapReduce 5.x Hadoop クラスタ作成ページで確認できます。

      • クラスタ作成後: クラスタストレージの種類は、E-MapReduce 5.x Hadoop クラスタの詳細ページにあります。

      クラスタストレージのルートディレクトリ

      クラスタストレージのルートディレクトリを入力します。これは、E-MapReduce 5.x Hadoop クラスタ情報から取得できます。

      重要

      入力したパスにエンドポイントが含まれている場合、Dataphin はデフォルトでそのエンドポイントを使用します。 含まれていない場合は、core-site.xml で構成されたバケットレベルのエンドポイントが使用されます。 バケットレベルのエンドポイントが構成されていない場合は、core-site.xml のグローバルエンドポイントが使用されます。 詳細については、「Alibaba Cloud OSS-HDFS サービス (JindoFS サービス) エンドポイント構成」を参照してください。

      構成ファイル

      クラスタパラメーターを設定するために、クラスタ構成ファイルをアップロードします。 システムは、core-site.xml、hive-site.xml、およびその他の構成ファイルのアップロードをサポートしています。 HMS メソッドを使用してメタデータを取得するには、hive-site.xml、core-site.xml、および hivemetastore-site.xml ファイルをアップロードする必要があります。

      履歴ログ

      クラスタのログパスを設定します (例: tmp/hadoop-yarn/staging/history/done)。

      AccessKey IDアクセスキーのシークレット

      OSS クラスタにアクセスするための AccessKey ID とアクセスキーのシークレットを入力します。 AccessKey については、「AccessKey の表示」を参照してください。

      重要

      ここで AccessKey を構成すると、core-site.xml で設定された AccessKey よりも優先されます。

      認証タイプ

      認証なし および Kerberos 認証方式をサポートします。 Kerberos は、対称鍵ベースの身元認証プロトコルであり、一般的にクラスタコンポーネントの認証に使用され、有効にするとセキュリティが強化されます。 Kerberos 認証を選択した場合は、Kerberos 認証用の Krb5 ファイルをアップロードする必要があります。

    • Hive 構成

      パラメーター

      説明

      JDBC URL

      Hive 接続用の JDBC URL を指定します。

      認証タイプ

      認証なしのクラスタの場合、Hive は認証方式として 認証なし および LDAP をサポートします。

      Kerberos 認証を使用するクラスタの場合、Hive は 認証なしLDAP、および Kerberos をサポートします。

      説明

      コンピューティングエンジンが E-MapReduce 3.x、E-MapReduce 5.x、Cloudera Data Platform 7.x、AsiaInfo DP 5.3、または Huawei FusionInsight 8.X の場合、認証方式を構成できます。

      ユーザー名パスワード

      Hive アクセス用のユーザー名とパスワードを入力します。

      • 認証なし: ユーザー名のみが必要です。

      • LDAP 認証: ユーザー名とパスワードの両方を入力する必要があります。

      • Kerberos 認証: 資格情報は不要です。

      Hive Keytab ファイル

      このパラメーターは、Kerberos 認証が有効になっている場合に必須です。 Hive サーバーから取得した keytab ファイルをアップロードします。

      Hive サーバーから取得できる keytab ファイルをアップロードします。

      Hive プリンシパル

      Kerberos 認証が有効になったら、このパラメーターを構成します。

      Kerberos 認証に使用される Hive Keytab ファイルに対応するプリンシパル名を入力します。 たとえば、XXXX/hadoopclient@xxx.xxx などです。

      実行エンジン

      使用中のコンピューティングエンジンに基づいて、適切な実行エンジンを選択します。 サポートされている実行エンジンは、コンピューティングエンジンによって次のように異なります。

      • E-MapReduce 3.X: MapReduce と Spark をサポートします。

      • E-MapReduce 5.X: MapReduce と Tez をサポートします。

      • CDH 5.X: MapReduce をサポートします。

      • CDH 6.X: MapReduce、Spark、および Tez をサポートします。

      • FusionInsight 8.X: MapReduce をサポートします。

      • AsiaInfo DP 5.3 Hadoop: MapReduce をサポートします。

      • Cloudera Data Platform 7.x: Tez をサポートします。

      説明

      実行エンジンを設定した後、メタデータウェアハウステナントのコンピューティング設定、コンピューティングソース、タスク、およびその他の要素は、指定された Hive 実行エンジンを使用します。 再初期化すると、これらの要素は新しく設定された実行エンジンにリセットされます。

    • メタデータ取得方法

      メタデータは、メタデータベースまたは HMS (Hive Metastore サービス) メソッドを使用して取得できます。 各メソッドの構成詳細は次のとおりです。

      • メタデータベース取得方法

        パラメーター

        説明

        データベースの種類

        Hive メタデータベースは現在、データベースの種類として MySQL のみサポートしています。

        互換性のある MySQL のバージョンには、MySQL 5.1.43MySQL 5.6/5.7、および MySQL 8 があります。

        JDBC URL

        ターゲットデータベースの JDBC URL を入力します。 たとえば、接続アドレスの形式は jdbc:mysql://host:port/dbname です。

        ユーザー名パスワード

        ターゲットデータベースのユーザー名とパスワードを指定します。

      • HMS 取得方法

        HMS メソッドを使用してメタデータを取得する場合、Kerberos を有効にした後、Keytab ファイルをアップロードし、プリンシパルを指定する必要があります。

        パラメーター

        説明

        Keytab ファイル

        Hive metastore の Kerberos 認証に必要な Keytab ファイルをアップロードします。

        プリンシパル

        Hive metastore の Kerberos 認証のプリンシパルを入力します。

  5. 必要な情報を入力した後、[接続テスト] をクリックして、Dataphin との接続を確認します。

  6. 接続テストが成功したら、[確認して初期化を開始] をクリックして、権限とメタデータウェアハウスの初期化構成を確認します。

    権限: この操作を実行するユーザーが、メタデータウェアハウステナント内でスーパー管理者またはシステム管理者のロールを持っていることを確認します。

    メタデータウェアハウスの初期化構成: メタデータウェアハウスの初期化が正常に構成されていることを確認します。

  7. 検証が成功すると、初期化プロセスが開始され、コンピューティングソース、プロジェクト、データソースが作成され、DDL 文が初期化されます。 完了すると、メタデータセンターの初期化設定が完了します。

関連情報

メタデータセンターの初期化設定が完了したら、データベースから Dataphin にメタデータを収集して、分析と管理を開始できます。 詳細については、「メタデータ取得タスクの作成と管理」をご参照ください。