Kudu データソースを作成することで、Dataphin が Kudu からビジネスデータを読み取ったり、Kudu にデータを書き込んだりできるようになります。このトピックでは、Kudu データソースを作成する方法について説明します。
背景情報
Kudu は、リレーショナルデータベース管理システム(RDBMS)と同様の機能とデータモデルを提供します。リレーショナルデータベースと同様のストレージ構造でデータを格納し、ユーザーはリレーショナルデータベースと同じ方法でデータの挿入、更新、削除を行うことができます。Kudu はストレージ層のみであり、データは格納しません。そのため、外部の Hadoop 処理エンジン(MapReduce、Spark、Impala)に依存します。Kudu は、基盤となる Linux ファイルシステムにデータをカラムナー形式で格納します。
Kudu は、より複雑なデータ処理システムを必要とするハイブリッドトランザクション/分析処理(HTAP)シナリオ(IoT など)に適しています。OLTP と OLAP の初期の分離から後の Lambda アーキテクチャまで、データのレプリケーションと同期には複雑さがあります。しかし、Kudu の単一データアーキテクチャは、従来のアーキテクチャにおけるデータのレプリケーションと同期の複雑さを回避します。詳細については、「Kudu 公式 Web サイト」をご参照ください。
権限
データソースを作成する権限を持つカスタムグローバルロールと、スーパー管理者、管理者、ドメイン設計者、プロジェクト管理者ロールのみがデータソースを作成できます。
手順
Dataphin ホームページの上部ナビゲーションバーで、[管理センター] > [データソース管理] を選択します。
[データソース] ページで、[+データソースの作成] をクリックします。
[データソースの作成] ページで、[ビッグデータ] セクションの [Kudu] を選択します。
最近 Kudu を使用したことがある場合は、[最近使用したデータソース] セクションで Kudu を選択することもできます。また、検索ボックスにキーワードを入力して、Kudu をすばやくフィルタリングすることもできます。
[Kudu データソースの作成] ページで、接続パラメーターを構成します。
データソースの基本情報を構成します。
パラメーター
説明
データソース名
名前は次の要件を満たしている必要があります。
漢字、英字、数字、アンダースコア(_)、ハイフン(-)のみ使用できます。
長さは 64 文字以下にする必要があります。
データソースコード
データソースコードを構成すると、
データソースコード.テーブル名またはデータソースコード.スキーマ.テーブル名形式を使用して、Flink_SQL タスクでデータソース内のテーブルを参照できます。現在の環境に基づいて対応する環境のデータソースに自動的にアクセスする必要がある場合は、変数形式${データソースコード}.tableまたは${データソースコード}.schema.tableを使用します。詳細については、「Dataphin データソーステーブル開発方法」をご参照ください。重要データソースコードは、正常に構成された後は変更できません。
データソースコードが正常に構成されると、アセットディレクトリとアセットインベントリのオブジェクト詳細ページでデータをプレビューできます。
Flink SQL では、現在、MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB データソースのみがサポートされています。
バージョン
実際の状況に基づいて、対応する Kudu バージョンを選択してください。サポートされているバージョンは次のとおりです。
CHD5:1.16
CHD6:1.16
CDP7.1.3:1.16。
データソースの説明
データソースの簡単な説明。128 文字以下にする必要があります。
データソース構成
構成するデータソースを選択します。
ビジネスデータソースが本番データソースと開発データソースを区別する場合は、[本番 + 開発データソース] を選択します。
ビジネスデータソースが本番データソースと開発データソースを区別しない場合は、[本番データソース] を選択します。
タグ
タグを使用してデータソースを分類およびタグ付けできます。タグの作成方法については、「データソースタグの管理」をご参照ください。
データソースと Dataphin 間の接続パラメーターを構成します。
データソース構成で [本番 + 開発データソース] を選択した場合は、[本番 + 開発データソース] の接続情報を構成する必要があります。データソース構成が [本番データソース] の場合は、[本番データソース] の接続情報のみを構成する必要があります。
説明通常、本番データソースと開発データソースは異なるデータソースとして構成し、開発環境を本番環境から分離し、開発データソースが本番データソースに与える影響を軽減する必要があります。ただし、Dataphin では、同じデータソースとして同じパラメーター値で構成することもサポートされています。
パラメーター
説明
接続 URL
Kudu データソースの接続アドレスを入力します。形式の例:
ip1:port1,ip2:port2。Kerberos
Kerberos は、対象サービスの身分認証を提供する、対称鍵テクノロジーに基づく身分認証プロトコルです。
Kudu で Kerberos 認証が有効になっている場合は、[Kerberos] を有効にする必要があります。有効にした後、次のパラメーターを構成する必要があります。
[Krb5 ファイル構成] または [KDC サーバー]:Kerberos 認証ドメイン名を含む Krb5 ファイルをアップロードするか、KDC サーバーアドレスを構成して、Kerberos 認証を支援します。
説明複数の KDC サーバーアドレスを構成できます。カンマ(,)で区切ります。
[keytab ファイル]: Kerberos 認証用の Keytab ファイルをアップロードします。
[プリンシパル]:Kerberos 認証のプリンシパル名を構成します。形式の例:
xxxx/hadoopclient@xxx.xxx。
Kudu に Kerberos 認証がない場合は、[kerberos] を有効にする必要はありません。
構成ファイル
Hadoop 構成ファイルをアップロードします。
説明[Kerberos] が [有効] に設定されている場合にのみ、構成ファイルをアップロードできます。
テーブルプレフィックス
テーブルプレフィックスを入力します。同じ Kudu サービスを使用する場合、テーブルプレフィックスを使用すると、本番環境と開発環境を効果的に分離できます。たとえば、同じ Kudu サービスを Impala などの複数のストレージシステムと組み合わせて使用する場合、Impala をテーブルプレフィックスとして使用して、ソースデータが Impala からのものであることを識別し、他のストレージシステムのテーブルと区別できます。
[デフォルトリソースグループ] を選択します。これは、データベース SQL、オフラインデータベース移行、データプレビューなど、現在のデータソースに関連するタスクを実行するために使用されます。
[接続テスト] をクリックするか、[OK] をクリックして保存し、Kudu データソースの作成を完了します。
[接続テスト] をクリックすると、システムはデータソースが Dataphin に正常に接続できるかどうかをテストします。[OK] を直接クリックすると、システムは選択したすべてのクラスターの接続を自動的にテストします。ただし、選択したすべてのクラスターの接続テストが失敗した場合でも、データソースは正常に作成されます。