すべてのプロダクト
Search
ドキュメントセンター

Dataphin:Hive 入力コンポーネントの設定

最終更新日:Oct 01, 2025

Hive 入力コンポーネントを使用すると、Hive データソースからデータを読み取ることができます。 Hive から他のデータソースにデータを同期するには、Hive 入力コンポーネントを構成してデータソースを読み取り、同期用のターゲットデータソースを設定します。 このトピックでは、Hive 入力コンポーネントの構成プロセスについて説明します。

制限事項

Hive 入力コンポーネントは、orcparquettextrcseq、および iceberg(iceberg 形式は、Hive コンピュートソースまたは E-MapReduce 5.x データソースでのみサポートされています)などのデータ形式をサポートしています。 ORC 形式のトランザクションテーブルまたは Kudu テーブル統合はサポートしていません。

説明

Kudu テーブルからデータを統合するには、Impala 入力コンポーネントを使用してください。 詳細については、「Impala 入力コンポーネントを構成する」をご参照ください。

前提条件

  • Hive データソースが確立されていること。 詳細については、「Hive データソースを作成する」をご参照ください。

  • Hive 入力コンポーネントのプロパティを構成するには、アカウントにデータソースのリードスルー権限が必要です。 これらの権限がない場合は、データソースから取得する必要があります。 詳細については、「データソース権限をリクエストする」をご参照ください。

手順

  1. Dataphin ホームページの上部メニューバーから、[開発] > [data Integration] を選択します。

  2. 統合ページの上部メニューバーで、プロジェクト を選択します(開発 - 本番モードでは環境を選択する必要があります)。

  3. 左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストから、開発したい オフラインパイプライン を選択して、その設定ページにアクセスします。

  4. [コンポーネントライブラリ] パネルを開くには、ページの右上隅にある [コンポーネントライブラリ] をクリックします。

  5. [コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。 次に、右側の入力コンポーネントのリストから、[hive] コンポーネントを見つけてキャンバスにドラッグします。

  6. Hive 入力コンポーネントカードの image アイコンをクリックして、[hive] [入力構成] ダイアログボックスを開きます。

  7. [hive 入力構成] ダイアログボックスのパラメーターを構成します。

    パラメーター

    説明

    ステップ名

    これは Hive 入力コンポーネントの名前です。 Dataphin はステップ名を自動的に生成しますが、ビジネスシナリオに応じて変更できます。 命名規則は次のとおりです。

    • 漢字、英字、アンダースコア(_)、数字のみ使用できます。

    • 64 文字を超えることはできません。

    データソース

    データソースドロップダウンリストには、リードスルー権限を持つデータソースとリードスルー権限を持たないデータソースを含む、すべての Hive タイプのデータソースが表示されます。 image アイコンをクリックして、現在のデータソース名をコピーします。

    • リードスルー権限のないデータソースの場合、データソースの後に [リクエスト] をクリックして、データソースのリードスルー権限をリクエストできます。 詳細については、「データソース権限をリクエストする」をご参照ください。

    • Hive タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。 詳細については、「Hive データソースを作成する」をご参照ください。

    テーブル

    データ同期用のソーステーブルを選択します。 image アイコンをクリックして、現在選択されているテーブルの名前をコピーします。

    説明

    選択したテーブルが Hudi テーブル または Paimon テーブル の場合、パーティション設定のみがサポートされます。

    パーティション

    静的パーティション または 範囲パーティション の読み取りをサポートします。静的パーティションの例は ds=20230101 および ds1=2023,ds2=01 です。範囲パーティションの例は /*query*/ds >=20230101 and ds <= 20230107 です。

    説明

    選択したテーブルが Hudi テーブル または Paimon テーブル の場合、範囲パーティションサポートされません

    パーティションが存在しない場合

    指定されたパーティションが存在しない場合の処理ポリシーとして、次のいずれかを選択できます。

    • タスクを失敗させる: タスクを終了し、失敗としてマークします。

    • データを書き込まずにタスクを成功させる: タスクは、ターゲットテーブルにデータを書き込まずに正常に実行されます。

    ファイルエンコーディング

    Hive に保存されているファイルを読み取るためのコーデックを選択します。 ファイルエンコーディングには、UTF-8GBK が含まれます。

    NULL 値の置換

    このオプションは、textfile データストレージ形式を使用するソーステーブルにのみ適用されます。NULL に置き換えたい文字列を入力します。たとえば、\N と入力すると、システムは \N 文字列を NULL に置き換えます。

    圧縮形式

    これはオプションです。 ファイルが圧縮されている場合は、Dataphin が解凍するための対応する圧縮形式を選択してください。 orc テーブルのデフォルト形式は zlib です。 別の展開形式が必要な場合は、それを指定する必要があります。 他の形式のテーブルにはデフォルト形式はありません。 サポートされている圧縮形式は、zlibhadoop-snappylz4なし です。

    フィールド区切り文字

    フィールド区切り文字は通常、テーブルが作成されるときに、たとえば ROW FORMAT DELIMITED FIELDS TERMINATED BY 文で指定されます。テーブルのフィールド区切り文字を入力します。これを空白のままにすると、Dataphin はデフォルトの区切り文字として \u0001 を使用します。

    出力フィールド

    出力フィールド領域には、選択したテーブルとフィルター条件に一致するすべてのフィールドが表示されます。 ダウンストリームコンポーネントに特定のフィールドを出力する必要がない場合は、対応するフィールドを削除できます。

    説明

    コンピュートエンジンが Hadoop の場合、Hadoop 入力コンポーネントの出力フィールドは、フィールドの分類の表示をサポートします。 Hadoop 以外のコンピュートエンジンはこれをサポートしていません。

    • 単一フィールド削除シナリオ: 少数のフィールドを削除するには、操作列の下にある sgaga アイコンをクリックして余分なフィールドを削除できます。

    • バッチフィールド削除シナリオ: 多くのフィールドを削除するには、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで複数のフィールドを選択し、image 左シフトアイコンをクリックして選択した入力フィールドを未選択の入力フィールドに移動し、[確認] をクリックしてフィールドのバッチ削除を完了します。

      image..png

  8. [確認] をクリックして、Hive 入力コンポーネントのプロパティ構成を完了します。