Hive 入力コンポーネントの設定 - Dataphin Data Integration - Dataphin

Hive 入力コンポーネントは、Hive データソースからデータを読み取ります。Hive データを別のデータソースに同期する場合は、このコンポーネントを入力として設定します。

制限事項

サポートされている Hive テーブル形式：orc 、parquet 、text 、rc 、seq 、および iceberg。iceberg 形式には、E-MapReduce 5.x 上の Hive コンピュートソースまたはデータソースが必要です。ORC トランザクションテーブルと Kudu テーブルはサポートされていません。

説明

Kudu テーブルからデータを統合するには、Impala 入力コンポーネントを使用してください。詳細については、「Impala 入力コンポーネントの設定」をご参照ください。

前提条件

Hive データソースが作成されていること。詳細については、「Hive データソースの作成」をご参照ください。
アカウントにデータソースの同期読み取り権限が付与されていること。詳細については、「データソース権限の申請」をご参照ください。

操作手順

Dataphin ホームページの上部メニューで、[Develop] > [Data Integration] を選択します。
Data Integration ページで、[Project] を選択します。 Dev-Prod モードでは、環境も選択します。
左側メニューで、[Offline Integration] をクリックします。 [Offline Integration] リストで、開発対象の オフラインパイプライン をクリックします。
ページの右上隅にある [Component Library] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルで [Input] を選択し、[Hive] コンポーネントを見つけてキャンバスにドラッグします。
Hive コンポーネントのアイコンをクリックして、[Hive] [入力設定] ダイアログボックスを開きます。

[Hive Input Configuration] ダイアログボックスで、パラメーターを設定します。

パラメーター	説明
[ステップ名]	Hive 入力コンポーネントの名前です。 Dataphin が自動生成した名前をカスタマイズできます。要件：中国語の文字、英字、アンダースコア (_)、数字のみ使用できます。 64 文字を超えることはできません。
[データソース]	Hive データソースを選択します。このリストには、同期読み取り権限の有無にかかわらず、すべての Hive データソースが表示されます。アイコンをクリックすると、データソース名をコピーできます。同期読み取り権限がない場合は、データソースの横にある [Apply] をクリックしてアクセスをリクエストしてください。詳細については、「データソース権限の申請」をご参照ください。 Hive データソースが存在しない場合は、[New Data Source] をクリックしてください。詳細については、「Hive データソースの作成」をご参照ください。
[テーブル]	ソーステーブルを選択します。アイコンをクリックすると、選択したテーブルの名前をコピーできます。説明 Hudi テーブルまたは Paimon テーブルを選択した場合、設定できるのは [Partition] パラメーターのみです。
[パーティション]	静的パーティション、たとえば `ds=20230101` や `ds1=2023,ds2=01`、または範囲パーティション、たとえば `/query/ds >=20230101 and ds <= 20230107` からデータを読み取ることができます。説明選択したテーブルが Hudi テーブルまたは Paimon テーブルの場合、範囲パーティションからの読み取りはサポートされていません。
[パーティションが見つからない場合のアクション]	指定したパーティションが存在しない場合のアクション： [タスクを失敗させる]：タスクは失敗します。 [タスクは成功、データは書き込まない]：タスクは成功しますが、ターゲットテーブルにはデータが書き込まれません。
[ファイルエンコーディング]	ソースファイルのエンコーディングを選択します。サポートされているエンコーディングは [UTF-8] と [GBK] です。
[NULL 値の置換]	`textfile` テーブルにのみ適用されます。`NULL` に置換する文字列を入力します。たとえば、`\N` を入力すると、すべての `\N` 値が `NULL` に置換されます。
[圧縮形式]	任意。圧縮ファイルの圧縮形式を選択します。 ORC テーブルのデフォルトは zlib ですが、他の形式にはデフォルト値がありません。サポートされている形式：[zlib] 、[hadoop-snappy] 、[lz4] 、[none]。
[フィールド区切り文字]	テーブルで使用されるフィールド区切り文字を入力します。これは通常 `ROW FORMAT DELIMITED FIELDS TERMINATED BY` ステートメントで設定され、デフォルトは `\u0001` です。
[出力フィールド]	フィルター条件に一致する、選択したテーブルのすべてのフィールドが一覧表示されます。下流のコンポーネントで不要なフィールドは削除してください。説明出力フィールドのデータ分類は、Hadoop コンピューティングエンジンを使用している場合にのみ表示されます。単一フィールドを削除するには：[操作] 列のアイコンをクリックしてフィールドを削除します。フィールドを一括で削除するには：[Field Management] をクリックします。 [Field Management] ダイアログボックスで、削除するフィールドを選択し、左矢印アイコンをクリックして未選択リストに移動させ、[OK] をクリックします。

[Confirm] をクリックして、コンポーネントの設定を保存します。