HDFS データソースの追加 - Dataphin

HDFS データソースを作成することで、Dataphin で HDFS からビジネスデータを読み取ったり、HDFS にデータを書き込んだりできます。このトピックでは、HDFS データソースの作成方法について説明します。

背景情報

HDFS クラスターは、マスター/ワーカーモードの NameNode と DataNode で構成されます。

NameNode は名前空間を構築し、ファイルメタデータを管理します。
DataNode はデータを保存し、データブロックの読み取りおよび書き込み操作を処理します。

HDFS を使用する場合、HDFS から Dataphin にビジネスデータをインポートしたり、Dataphin から HDFS にデータをエクスポートしたりする前に、HDFS データソースを作成する必要があります。詳細については、「HDFS 公式紹介」をご参照ください。

権限要件

[データソースの作成] 権限を持つカスタムグローバルロールを持つユーザー、またはスーパー管理者、データソース管理者、ドメインアーキテクト、またはプロジェクト管理者のシステムロールを持つユーザーのみがデータソースを作成できます。

手順

Dataphin のホームページで、上部のナビゲーションバーにある [管理センター] > [データソース管理] をクリックします。
[データソース] ページで、[+データソースの作成] をクリックします。
[データソースの作成] ページで、[ファイル] セクションの [HDFS] を選択します。
最近 HDFS を使用した場合は、[最近使用した項目] セクションで HDFS を選択することもできます。検索ボックスに HDFS キーワードを入力して、すばやくフィルターすることもできます。

[HDFS データソースの作成] ページで、接続パラメーターを構成します。

データソースの基本情報を構成します。

パラメーター	説明
データソース名	名前は次の要件を満たす必要があります: 中国語の文字、英字、数字、アンダースコア (_)、ハイフン (-) のみを含めることができます。長さは 64 文字を超えることはできません。
データソースコード	データソースコードを構成した後、`datasource code.table name` または `datasource code.schema.table name` 形式を使用して、Flink_SQL ノードのデータソース内のテーブルを参照できます。対応する環境でデータソースに自動的にアクセスするには、`${datasource code}.table` または `${datasource code}.schema.table` 変数形式を使用します。詳細については、「Dataphin データソーステーブルを開発する」および「」をご参照ください。重要データソースコードは、構成後に変更することはできません。データソースコードが構成された後にのみ、アセットディレクトリおよびアセットインベントリのオブジェクト詳細ページでデータをプレビューできます。 Flink SQL では、MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、および SelectDB データソースのみがサポートされています。
バージョン	データソースのバージョンを選択します。次のバージョンがサポートされています: CDH5.x HDFS Alibaba Cloud EMR 3.x HDFS CDH6.x HDFS 2.1.1 FusionInsight 8.x HDFS CDP7.x HDFS AsiaInfo DP5.x HDFS Alibaba Cloud EMR 5.x HDFS
データソースの説明	データソースの簡単な説明。128 文字を超えることはできません。
データソース構成	構成するデータソースを選択します: ビジネスデータソースが本番データソースと開発データソースを区別する場合は、[本番 + 開発データソース] を選択します。ビジネスデータソースが本番データソースと開発データソースを区別しない場合は、[本番データソース] を選択します。
タグ	タグに基づいてデータソースを分類し、タグ付けできます。タグの作成方法の詳細については、「データソースタグの管理」をご参照ください。

データソースと Dataphin 間の接続パラメーターを構成します。

データソース構成で [本番 + 開発データソース] を選択した場合は、[本番 + 開発データソース] の接続情報を構成する必要があります。データソース構成が [本番データソース] の場合は、[本番データソース] の接続情報のみを構成する必要があります。

説明

通常、本番データソースと開発データソースは、環境の分離を実現し、開発アクティビティが本番に与える影響を軽減するために、異なるデータソースとして構成する必要があります。ただし、Dataphin は、同じパラメーター値を持つ同じデータソースとして構成することもサポートしています。

パラメーター	説明
NameNode	NameNode は、HDFS クラスター内の NameNode のホスト名または IP アドレスとポートです。例: `host=192.168.*.1,webUiPort=,ipcPort=8020`。CDH 5 環境では、`webUiPort` と `IPCport` のデフォルト値は 50070 と 8020 です。必要に応じてポートを指定してください。説明 webUiPort はオプションです。webUiPort を入力しなくても、HDFS データソースの使用には影響しません。
構成ファイル	hdfs-site.xml や core-site.xml などの Hadoop 構成ファイルをアップロードするために使用されます。これらの構成ファイルは、Hadoop クラスターからエクスポートできます。
Kerberos	Kerberos は、対称キー技術に基づく ID 認証プロトコルです。 Hadoop クラスターに Kerberos 認証がある場合は、Kerberos 認証を有効にして、ユーザーの Krb5 認証ファイルをアップロードするか、KDC サーバーアドレス、Keytab ファイル、およびプリンシパルを構成する必要があります: Krb5 ファイル: Kerberos 認証用の Krb5 ファイルをアップロードします。 KDC サーバー: Kerberos 認証を完了するのに役立つ KDC サーバーアドレス。 Keytab ファイル: HDFS サーバーから取得できる keytab ファイルをアップロードします。プリンシパル: HDFS Keytab ファイルに対応する Kerberos 認証ユーザー名を入力します。説明複数の KDC サーバーアドレスを構成できます。コンマ (`,`) で区切ります。

[デフォルトリソースグループ] を選択します。これは、データベース SQL、オフラインデータベース移行、データプレビューなど、現在のデータソースに関連するタスクを実行するために使用されます。
[接続をテスト] をクリックするか、直接 [OK] をクリックして、HDFS データソースの作成を保存し、完了します。
[接続をテスト] をクリックすると、システムはデータソースが Dataphin に正常に接続できるかどうかをテストします。直接 [OK] をクリックすると、システムは選択したすべてのクラスターの接続を自動的にテストします。ただし、選択したすべてのクラスターが接続に失敗した場合でも、データソースは正常に作成できます。