Impala データソースを作成することで、Dataphin が Impala からビジネスデータを読み取ったり、Impala にデータを書き込んだりできるようになります。このトピックでは、Impala データソースを作成する方法について説明します。
背景情報
Impala は、Hadoop クラスタに格納されている大量のデータを処理するための SQL クエリエンジンです。Impala を使用していて、Dataphin データを Impala にエクスポートする場合、最初に Impala データソースを作成する必要があります。Impala の詳細については、「Impala 公式 Web サイト」をご参照ください。
権限管理
データソースの作成権限スーパー管理者データソース管理者ビジネスユニットアーキテクトプロジェクト管理者 権限を持つカスタムグローバルロールと、、、、または ロールを持つユーザーのみがデータソースを作成できます。
制限事項
Dataphin の IMPALA データソースのデータ統合は JDBC を使用しており、Hive と比較してパフォーマンスが低くなります。統合するテーブルが Kudu テーブルでない場合は、Hive データソースと入出力コンポーネントを統合に使用できます。
DLF を使用したメタデータ取得は、E-MapReduce 5.x の Impala データソースに接続する場合にのみサポートされます。
手順
Dataphin ホームページで、上部のナビゲーションバーにある [管理センター] > [データソース管理] をクリックします。
[データソース] ページで、[+データソースを作成] をクリックします。
[データソースの作成] ページで、[ビッグデータ] セクションの [IMPALA] を選択します。
最近 IMPALA を使用したことがある場合は、[最近使用した項目] セクションで IMPALA を選択することもできます。また、検索ボックスに IMPALA キーワードを入力して、すばやくフィルタリングすることもできます。
[IMPALA データソースの作成] ページで、接続パラメーターを構成します。
データソースの基本情報を構成します。
パラメータ
説明
[データソース名]
名前は次の要件を満たしている必要があります。
漢字、英字、数字、アンダースコア (_)、およびハイフン (-) のみを含めることができます。
長さは 64 文字を超えることはできません。
[データソースコード]
データソースコードを構成した後、
datasource_code.table_nameまたはdatasource_code.schema.table_nameの形式を使用して、Flink_SQL タスクでデータソース内のテーブルを参照できます。現在の環境に基づいて対応する環境のデータソースに自動的にアクセスする必要がある場合は、変数形式${datasource_code}.tableまたは${datasource_code}.schema.tableを使用します。詳細については、「Dataphin データソーステーブル開発方法」をご参照ください。重要データソースコードは、正常に構成された後は変更できません。
データソースコードが正常に構成されると、アセットディレクトリとアセットインベントリのオブジェクト詳細ページでデータをプレビューできます。
Flink SQL では、現在、MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、および SelectDB データソースのみがサポートされています。
[バージョン]
Impala データソースのバージョンを選択します。サポートされているバージョンは次のとおりです。
[CDH5:2.11.0]
[CDH6:3.2.0]
[CDP7.1.3:3.4.0]
[e-mapreduce 3.x: 3.4.0]
[e-mapreduce 5.x: 3.4.0]
[e-mapreduce 5.x: 4.2.0]
[データソースの説明]
データソースの簡単な説明。128 文字を超えることはできません。
[データソースの構成]
構成するデータソースを選択します。
ビジネスデータソースで本番データソースと開発データソースが区別されている場合は、[本番 + 開発データソース] を選択します。
ビジネスデータソースで本番データソースと開発データソースが区別されていない場合は、[本番データソース] を選択します。
[タグ]
タグを使用してデータソースを分類およびタグ付けできます。タグの作成方法については、「データソースタグの管理」をご参照ください。
データソースと Dataphin 間の接続パラメータを構成します。
データソース構成で [本番 + 開発データソース] を選択した場合は、[本番 + 開発データソース] の両方の接続情報を構成する必要があります。 [本番データソース] を選択した場合は、[本番データソース] の接続情報のみを構成する必要があります。
説明通常、本番データソースと開発データソースは別々のデータソースとして構成し、開発環境を本番環境から分離し、開発データソースが本番データソースに与える影響を軽減する必要があります。ただし、Dataphin では、同じパラメータ値を使用して同じデータソースとして構成することもサポートされています。
パラメータ
説明
[JDBC URL]
接続アドレスの形式は
jdbc:impala//host:port/dbnameです。たとえば、jdbc:impala//192.168.*.1:5433/dataphinです。[kerberos]
Kerberos は、対称鍵テクノロジーに基づく身元認証プロトコルです。
Hadoop クラスタに Kerberos 認証がある場合は、[kerberos] を有効にする必要があります。
Hadoop クラスタに Kerberos 認証がない場合は、[kerberos] を有効にする必要はありません。
[krb5 ファイル]/[KDC サーバー]、[keytab ファイル]、[プリンシパル]
[kerberos] を有効にした後、次のパラメータを構成する必要があります。
[Krb5 ファイル]/[KDC サーバー]: Kerberos 認証ドメイン名を含む Krb5 ファイルをアップロードするか、KDC サーバーアドレスを構成して Kerberos 認証を支援します。
説明複数の KDC サーバーアドレスを構成できます。コンマ
,で区切ります。[keytab ファイル]: Krb5 ファイルドメイン名または KDC サーバーアドレスにログインするためのアカウントとパスワードを含むファイルをアップロードします。
[プリンシパル]: Keytab ファイルに対応する Kerberos 認証ユーザー名を構成します。
[ユーザー名]、[パスワード]
[Kerberos] を有効にしていない場合は、Impala インスタンスにアクセスするためのユーザー名とパスワードを構成する必要があります。
データソースメタデータデータベースパラメータを構成します。
メタデータ取得方法: [メタデータデータベース]、[HMS]、[DLF] の 3 つの方法がサポートされています。取得方法が異なると、必要な構成情報も異なります。
メタデータデータベース取得方法
パラメータ
説明
[データベースの種類]
クラスタで使用されているメタデータデータベースの種類に応じてデータベースの種類を選択します。Dataphin は [MySQL] と [PostgreSQL] をサポートしています。[MySQL] データベースの種類は、[MySQL 5.1.43]、[MYSQL 5.6/5.7]、および [MySQL 8] バージョンをサポートしています。
[JDBC URL]
ターゲットデータベースの JDBC 接続アドレスを入力します。接続アドレスの形式は
jdbc:mysql://host:port/dbnameです。[ユーザー名]、[パスワード]
メタデータデータベースにログインするためのユーザー名とパスワードを入力します。
HMS 取得方法
パラメータ
説明
[hive-site.xml]
Hive の hive-site.xml 構成ファイルをアップロードします。
DLF 取得方法
説明DLF を使用したメタデータ取得は、E-MapReduce 5.x の Impala データソースに接続する場合にのみサポートされます。
パラメータ
説明
[エンドポイント] (オプション)
DLF データセンターでクラスタが配置されているリージョンのエンドポイントを入力します。指定しない場合は、hive-site.xml の構成が使用されます。エンドポイントの取得方法については、「DLF リージョンとエンドポイントの参照テーブル」をご参照ください。
[accesskey ID]、[accesskey Secret]
クラスタが配置されているアカウントの AccessKey ID と AccessKey Secret を入力します。
アカウントの AccessKey ID と AccessKey Secret は、[ユーザー情報管理] ページで取得できます。

[hive-site.xml]
Hive の hive-site.xml 構成ファイルをアップロードします。
データソースと Dataphin 間の接続の詳細設定を構成します。
パラメータ
説明
接続再試行回数
データベース接続がタイムアウトした場合、システムは指定されたリトライ回数に達するまで接続を自動的に再試行します。最大リトライ回数後も接続に失敗した場合は、接続は失敗します。
説明デフォルトのリトライ回数は 1 で、0 から 10 までの値を構成できます。
接続リトライ回数は、デフォルトで オフライン統合タスクと グローバル品質 (アセット品質機能モジュールを有効にする必要があります) に適用されます。オフライン統合タスクでは、タスクレベルのリトライ回数を個別に構成できます。
[デフォルトのリソースグループ] を選択します。これは、データベース SQL、オフラインデータベース移行、データプレビューなど、現在のデータソースに関連するタスクを実行するために使用されます。
[接続テスト] をクリックするか、[OK] を直接クリックして、IMPALA データソースの作成を保存して完了します。
[接続テスト] をクリックすると、システムはデータソースが Dataphin に正常に接続できるかどうかをテストします。[OK] を直接クリックすると、システムは選択したすべてのクラスタの接続を自動的にテストします。ただし、選択したすべてのクラスタの接続テストに失敗した場合でも、データソースは正常に作成できます。