Hudi データソースを作成することで、Dataphin が Hudi からビジネスデータを読み取ったり、Hudi にデータを書き込んだりできるようになります。このトピックでは、Hudi データソースの作成方法について説明します。
背景情報
Apache Hudi は、コアとなるリポジトリとデータベース機能をデータベースに直接組み込み、レコードレベルでのデータの挿入、更新、削除機能をサポートする汎用ビッグデータストレージシステムです。詳細については、「Apache Hudi 公式 Web サイト」をご参照ください。
権限
データソースの作成 権限を持つカスタムグローバルロールを持つユーザーと、スーパー管理者、データソース管理者、ドメイン設計者、または プロジェクト管理者 ロールのユーザーのみがデータソースを作成できます。
手順
Dataphin ホームページで、上部のナビゲーションバーの [管理センター] > [データソース管理] をクリックします。
[データソース] ページで、[+データソースの作成] をクリックします。
[データソースの作成] ページで、[ビッグデータ] セクションから [Hudi] を選択します。
最近 Hudi を使用したことがある場合は、[最近使用した] セクションから選択することもできます。また、検索ボックスにキーワードを入力して Hudi をすばやく検索することもできます。
[Hudi データソースの作成] ページで、接続パラメータを構成します。
データソースの基本情報を構成します。
パラメーター
説明
データソース名
名前は次の要件を満たしている必要があります。
使用できるのは、漢字、英字、数字、アンダースコア (_)、ハイフン (-) のみです。
長さは 64 文字以下にする必要があります。
[データソースコード]
データソースコードを構成すると、
data_source_code.table_nameまたはdata_source_code.schema.table_name形式を使用して、Flink_SQL タスクでデータソース内のテーブルを参照できます。現在の環境に基づいて対応する環境内のデータソースに自動的にアクセスする必要がある場合は、変数形式${data_source_code}.tableまたは${data_source_code}.schema.tableを使用します。詳細については、「Dataphin データソーステーブル開発方法」をご参照ください。重要データソースコードは、正常に構成された後は変更できません。
データソースコードが正常に構成されると、アセットディレクトリとアセットインベントリのオブジェクト詳細ページでデータをプレビューできます。
Flink SQL では、現在、MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB データソースのみがサポートされています。
データソースの説明
データソースの簡単な説明。128 文字以下にする必要があります。
データソース構成
構成するデータソースを選択します。
ビジネスデータソースで本番データソースと開発データソースが区別されている場合は、[本番 + 開発データソース] を選択します。
ビジネスデータソースで本番データソースと開発データソースが区別されていない場合は、[本番データソース] を選択します。
データソースと Dataphin 間の接続パラメータを構成します。
データソース構成で [本番 + 開発データソース] を選択した場合は、[本番 + 開発データソース] の両方の接続情報を構成する必要があります。 [本番データソース] を選択した場合は、[本番データソース] の接続情報のみを構成する必要があります。
説明通常、本番環境と開発環境を分離し、開発データソースが本番データソースに与える影響を軽減するために、本番データソースと開発データソースは別々のデータソースとして構成する必要があります。ただし、Dataphin では、同じパラメータ値を使用して同じデータソースとして構成することもサポートされています。
パラメーター
説明
ストレージ構成
HDFS または OSS ストレージをサポートします。
ストレージパス
[HDFS ストレージ]: HDFS ストレージパスを入力します。Flink ユーザーにパスへのアクセス権限があることを確認してください。形式は
hdfs://host:port/pathです。[OSS ストレージ]: OSS ストレージパスを入力します。例:
oss://dp-oss/hudi/。OSS ストレージを使用する場合は、OSS エンドポイント、AccessKeyID、および AccessKeySecret も入力する必要があります。

[エンドポイント]: Alibaba Cloud OSS を使用する場合は、OSS が配置されているリージョンに基づいて対応するネットワークタイプを入力できます。詳細については、「パブリッククラウドの OSS リージョンとエンドポイントの参照表」をご参照ください。
[AccessKeyID]、[AccessKeySecret]: OSS を所有するアカウントの AccessKey ID と AccessKey Secret。取得方法については、「AccessKey ペアを取得する」をご参照ください。
メタデータ同期
有効にすると、Hudi テーブルのスキーマが Hive MetaStore に同期されます。
HDFS ストレージ構成を使用し、メタデータ同期を有効にする場合は、次の情報も構成する必要があります。

[バージョン]: CDH6:2.1.1 および CDP7.1.3:3.1.300 をサポートします。
[同期モード]: hms と jdbc をサポートします。同期モードごとに異なるパラメーターを構成する必要があります。
hms: Hive メタデータデータベースの thrift アドレスと Hive に同期するデータベース名。
重要hms を選択した場合は、Hive で metastore サーバーを有効にする必要があります。
jdbc: Hive メタデータデータベースの jdbc アドレス、Hive メタデータデータベースのユーザー名、Hive メタデータデータベースのパスワード、Hive に同期するデータベース名。
OSS ストレージ構成を使用し、メタデータ同期を有効にする場合は、次の情報も構成する必要があります。

[同期モード]: デフォルトは hms で、変更できません。
メタデータターゲットデータベース: デフォルトは DLF で、変更できません。
[DLF サービスリージョン名]: DLF サービスのリージョンドメイン名を入力します。詳細については、「DLF リージョンとエンドポイントのリファレンステーブル。」をご参照ください。
[DLF サービスエンドポイント]: DLF サービスのエンドポイントアドレスを入力します。詳細については、「DLF リージョンとエンドポイントの参照表。」をご参照ください。
Hive に同期するデータベース名: Hive に同期するデータベース名を入力します。