Impala データソースの作成 - Dataphin - Alibaba Cloud ドキュメントセンター

Impala データソースを作成することで、Dataphin が Impala からビジネスデータを読み取ったり、Impala にデータを書き込んだりできるようになります。このトピックでは、Impala データソースの作成方法について説明します。

背景情報

Impala は、Hadoop クラスターに保存されている大量のデータを処理するための SQL クエリエンジンです。Impala を使用し、Dataphin のデータを Impala にエクスポートする場合は、まず Impala データソースを作成する必要があります。Impala の詳細については、Impala 公式サイトをご参照ください。

権限管理

[データソース作成権限] を持つカスタムグローバルロール、およびスーパー管理者、データソース管理者、ビジネスユニットアーキテクト、またはプロジェクト管理者のロールを持つユーザーのみがデータソースを作成できます。

制限事項

Dataphin は、Impala データソースの統合に Java Database Connectivity (JDBC) を使用しますが、これは Hive と比較してパフォーマンスが低くなります。統合するテーブルが Kudu テーブルでない場合は、代わりに Hive データソースとその入出力コンポーネントを使用してください。

DLF を使用したメタデータ取得は、E-MapReduce 5.x の Impala データソースに接続する場合にのみサポートされます。

操作手順

Dataphin ホームページで、上部ナビゲーションバーの [管理センター] > [データソース管理] をクリックします。
[データソース] ページで、[+データソースの作成] をクリックします。
[データソースの作成] ページで、[ビッグデータ] の下から、[Impala] を選択します。
最近 Impala を使用したことがある場合は、[最近使用した項目] セクションから選択するか、検索ボックスに `Impala` を入力して見つけることができます。

[Impala データソースの作成] ページで、データソースの接続パラメーターを設定します。

データソースの基本情報を設定します。

パラメーター	説明
データソース名	名前は、以下の要件を満たす必要があります。中国語の文字、英字、数字、アンダースコア (_)、ハイフン (-) のみを含めることができます。長さは 64 文字を超えることはできません。
データソースコード	データソースコードを設定すると、`datasource_code.table_name` または `datasource_code.schema.table_name` フォーマットを使用して Flink_SQL ノードのテーブルを参照できます。現在の環境のデータソースに自動的にアクセスするには、`${datasource_code}.table` または `${datasource_code}.schema.table` 変数フォーマットを使用します。詳細については、「Dataphin データソーステーブルを開発する」および「」をご参照ください。重要データソースコードは設定後に変更できません。データソースコードを設定した後にのみ、アセットディレクトリとアセットチェックリストのオブジェクト詳細ページでデータをプレビューできます。 Flink SQL では、現在、MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB、および GaussDB データウェアハウスサービス (DWS) のデータソースのみがサポートされています。
バージョン	Impala データソースのバージョンを選択します。サポートされているバージョンは次のとおりです。 CDH5:2.11.0 CDH6:3.2.0 CDP7.1.3:3.4.0 E-MapReduce 3.x: 3.4.0 E-MapReduce 5.x: 3.4.0 E-MapReduce 5.x: 4.2.0
データソースの説明	データソースの簡単な説明です。128 文字を超えることはできません。
データソース構成	設定するデータソースを選択します。ビジネスデータソースが本番および開発用データソースを区別する場合は、[本番 + 開発用データソース] を選択します。ビジネスデータソースが本番および開発用データソースを区別しない場合は、[本番データソース] を選択します。
タグ	タグを使用してデータソースを分類し、タグ付けできます。タグの作成方法については、「データソースタグの管理」をご参照ください。

データソースと Dataphin 間の接続パラメーターを設定します。

データソース設定で [本番 + 開発データソース] を選択した場合、[本番 + 開発データソース] の両方の接続情報を設定する必要があります。 [本番データソース] を選択した場合、[本番データソース] の接続情報のみを設定する必要があります。

説明

通常、開発環境と本番環境を分離し、開発データソースが本番データソースに与える影響を軽減するために、本番データソースと開発データソースは別々のデータソースとして設定する必要があります。ただし、Dataphin は、それらを同じパラメーター値を持つ同一のデータソースとして設定することもサポートしています。

パラメーター	説明
JDBC URL	エンドポイントのフォーマットは `jdbc:impala//host:port/dbname` です。例として、`jdbc:impala//192.168.*.1:5433/dataphin` があります。
Kerberos	Kerberos は、対称キー技術に基づく身分認証プロトコルです。 Hadoop クラスターに Kerberos 認証が設定されている場合、[Kerberos] を有効にする必要があります。 Hadoop クラスターに Kerberos 認証が設定されていない場合、[Kerberos] を有効にする必要はありません。
Krb5 ファイル/ KDC サーバー、Keytab ファイル、プリンシパル	[Kerberos] を有効にした後、次のパラメーターを設定する必要があります： Krb5 ファイル/ KDC サーバー：Kerberos 認証ドメイン名を含む Krb5 ファイルをアップロードするか、KDC サーバーアドレスを設定して Kerberos 認証を補助します。説明複数の KDC サーバーのアドレスを設定できます。アドレスはカンマ（`,`）で区切ります。 Keytab ファイル：Krb5 ファイルのドメイン名または KDC サーバーアドレスにログインするためのアカウントとパスワードを含むファイルをアップロードします。プリンシパル：Keytab ファイルに対応する Kerberos 認証ユーザー名を設定します。
ユーザー名、パスワード	[Kerberos] を有効にしていない場合は、Impala インスタンスにアクセスするためにユーザー名とパスワードを設定する必要があります。

データソースのメタデータデータベースのパラメーターを設定します。

メタデータ取得方法: 3 つの方法がサポートされています: [メタデータデータベース]、[HMS]、および [DLF]。異なる取得方法では、異なる構成情報が必要です。

メタデータデータベース取得方法

パラメーター	説明
データベースタイプ	お使いのクラスターで使用されているメタデータデータベースの種類に応じて、データベースの種類を選択します。Dataphin では、MySQL および PostgreSQL をサポートしています。MySQL データベースの種類では、MySQL 5.1.43、MYSQL 5.6/5.7、および MySQL 8 の各バージョンをサポートしています。
JDBC URL	対象データベースの JDBC エンドポイントを入力します。フォーマットは `jdbc:mysql://host:port/dbname` です。
ユーザー名、パスワード	メタデータデータベースにログインするためのユーザー名とパスワードを入力します。

HMS 取得方法
パラメーター
説明
hive-site.xml
Hive の hive-site.xml 設定ファイルをアップロードします。

DLF 取得方法

説明

DLF を使用したメタデータ取得は、E-MapReduce 5.x の Impala データソースに接続する場合にのみサポートされます。

パラメーター	説明
エンドポイント (オプション)	クラスターが配置されている DLF データセンターのリージョンのエンドポイントを入力します。指定しない場合、hive-site.xml の構成が使用されます。エンドポイントの取得方法については、DLF のリージョンとエンドポイントの対応表をご参照ください。
AccessKey ID、AccessKey Secret	クラスターが所在するアカウントの AccessKey ID と AccessKey Secret を入力します。アカウントの AccessKey ID と AccessKey Secret は、ユーザー情報管理ページで取得できます。
hive-site.xml	Hive 用の hive-site.xml 構成ファイルをアップロードします。

データソースと Dataphin 間の接続に関する詳細設定を行います。

パラメーター

説明

接続リトライ回数

データベース接続がタイムアウトした場合、システムは指定されたリトライ回数に達するまで自動的に接続をリトライします。最大リトライ回数に達しても接続に失敗した場合、接続は失敗します。

説明

デフォルトのリトライ回数は 1 で、0 から 10 の間の値を設定できます。
接続リトライ回数は、デフォルトでオフライン統合タスクとグローバル品質 (アセット品質機能モジュールの有効化が必要) に適用されます。オフライン統合タスクでは、タスクレベルのリトライ回数を個別に設定できます。

[デフォルトリソースグループ] を選択します。このリソースグループは、データベース SQL、オフラインデータベース移行、データプレビューなど、現在のデータソースに関連するタスクの実行に使用されます。
[接続のテスト] または [OK] をクリックして、構成を保存し、Impala データソースを作成します。
「[接続のテスト]」をクリックすると、システムはデータソースが Dataphin に正常に接続できるかをテストします。直接「[OK]」をクリックすると、システムは選択したすべてのクラスターについて自動的に接続テストを実行します。ただし、選択したすべてのクラスターが接続テストに失敗した場合でも、データソースは通常どおり作成できます。