Hive 入力コンポーネントを使用すると、Hive データソースからデータを読み取ることができます。 Hive から他のデータソースにデータを同期するには、Hive 入力コンポーネントを構成してデータソースを読み取り、同期用のターゲットデータソースを設定します。 このトピックでは、Hive 入力コンポーネントの構成プロセスについて説明します。
制限事項
Hive 入力コンポーネントは、orc、parquet、text、rc、seq、および iceberg(iceberg 形式は、Hive コンピュートソースまたは E-MapReduce 5.x データソースでのみサポートされています)などのデータ形式をサポートしています。 ORC 形式のトランザクションテーブルまたは Kudu テーブル統合はサポートしていません。
Kudu テーブルからデータを統合するには、Impala 入力コンポーネントを使用してください。 詳細については、「Impala 入力コンポーネントを構成する」をご参照ください。
前提条件
Hive データソースが確立されていること。 詳細については、「Hive データソースを作成する」をご参照ください。
Hive 入力コンポーネントのプロパティを構成するには、アカウントにデータソースのリードスルー権限が必要です。 これらの権限がない場合は、データソースから取得する必要があります。 詳細については、「データソース権限をリクエストする」をご参照ください。
手順
Dataphin ホームページの上部メニューバーから、[開発] > [data Integration] を選択します。
統合ページの上部メニューバーで、プロジェクト を選択します(開発 - 本番モードでは環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストから、開発したい オフラインパイプライン を選択して、その設定ページにアクセスします。
[コンポーネントライブラリ] パネルを開くには、ページの右上隅にある [コンポーネントライブラリ] をクリックします。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。 次に、右側の入力コンポーネントのリストから、[hive] コンポーネントを見つけてキャンバスにドラッグします。
Hive 入力コンポーネントカードの
アイコンをクリックして、[hive] [入力構成] ダイアログボックスを開きます。[hive 入力構成] ダイアログボックスのパラメーターを構成します。
パラメーター
説明
ステップ名
これは Hive 入力コンポーネントの名前です。 Dataphin はステップ名を自動的に生成しますが、ビジネスシナリオに応じて変更できます。 命名規則は次のとおりです。
漢字、英字、アンダースコア(_)、数字のみ使用できます。
64 文字を超えることはできません。
データソース
データソースドロップダウンリストには、リードスルー権限を持つデータソースとリードスルー権限を持たないデータソースを含む、すべての Hive タイプのデータソースが表示されます。
アイコンをクリックして、現在のデータソース名をコピーします。リードスルー権限のないデータソースの場合、データソースの後に [リクエスト] をクリックして、データソースのリードスルー権限をリクエストできます。 詳細については、「データソース権限をリクエストする」をご参照ください。
Hive タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。 詳細については、「Hive データソースを作成する」をご参照ください。
テーブル
データ同期用のソーステーブルを選択します。
アイコンをクリックして、現在選択されているテーブルの名前をコピーします。説明選択したテーブルが Hudi テーブル または Paimon テーブル の場合、パーティション設定のみがサポートされます。
パーティション
静的パーティション または 範囲パーティション の読み取りをサポートします。静的パーティションの例は
ds=20230101およびds1=2023,ds2=01です。範囲パーティションの例は/*query*/ds >=20230101 and ds <= 20230107です。説明選択したテーブルが Hudi テーブル または Paimon テーブル の場合、範囲パーティション はサポートされません。
パーティションが存在しない場合
指定されたパーティションが存在しない場合の処理ポリシーとして、次のいずれかを選択できます。
タスクを失敗させる: タスクを終了し、失敗としてマークします。
データを書き込まずにタスクを成功させる: タスクは、ターゲットテーブルにデータを書き込まずに正常に実行されます。
ファイルエンコーディング
Hive に保存されているファイルを読み取るためのコーデックを選択します。 ファイルエンコーディングには、UTF-8 と GBK が含まれます。
NULL 値の置換
このオプションは、
textfileデータストレージ形式を使用するソーステーブルにのみ適用されます。NULLに置き換えたい文字列を入力します。たとえば、\Nと入力すると、システムは\N文字列をNULLに置き換えます。圧縮形式
これはオプションです。 ファイルが圧縮されている場合は、Dataphin が解凍するための対応する圧縮形式を選択してください。 orc テーブルのデフォルト形式は zlib です。 別の展開形式が必要な場合は、それを指定する必要があります。 他の形式のテーブルにはデフォルト形式はありません。 サポートされている圧縮形式は、zlib、hadoop-snappy、lz4、なし です。
フィールド区切り文字
フィールド区切り文字は通常、テーブルが作成されるときに、たとえば
ROW FORMAT DELIMITED FIELDS TERMINATED BY文で指定されます。テーブルのフィールド区切り文字を入力します。これを空白のままにすると、Dataphin はデフォルトの区切り文字として\u0001を使用します。出力フィールド
出力フィールド領域には、選択したテーブルとフィルター条件に一致するすべてのフィールドが表示されます。 ダウンストリームコンポーネントに特定のフィールドを出力する必要がない場合は、対応するフィールドを削除できます。
説明コンピュートエンジンが Hadoop の場合、Hadoop 入力コンポーネントの出力フィールドは、フィールドの分類の表示をサポートします。 Hadoop 以外のコンピュートエンジンはこれをサポートしていません。
単一フィールド削除シナリオ: 少数のフィールドを削除するには、操作列の下にある
アイコンをクリックして余分なフィールドを削除できます。バッチフィールド削除シナリオ: 多くのフィールドを削除するには、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで複数のフィールドを選択し、
左シフトアイコンをクリックして選択した入力フィールドを未選択の入力フィールドに移動し、[確認] をクリックしてフィールドのバッチ削除を完了します。
[確認] をクリックして、Hive 入力コンポーネントのプロパティ構成を完了します。