すべてのプロダクト
Search
ドキュメントセンター

Dataphin:Impala 入力コンポーネントの設定

最終更新日:Mar 06, 2026

Impala 入力コンポーネントは、Impala データソースからデータを取得します。Impala データソースから別のデータソースへデータを同期するには、まず Impala 入力コンポーネントをソースから読み取るように設定します。次に、同期するターゲットデータソースを設定します。このトピックでは、Impala 入力コンポーネントの設定方法について説明します。

前提条件

操作手順

  1. Dataphin ホームページの上部のメニューバーで、[開発][データ統合] を選択します。

  2. [Data Integration] ページで、[Project] を選択します。Dev-Prod モードでは、環境も選択します。

  3. 左側のナビゲーションウィンドウで、バッチパイプライン をクリックします。バッチパイプライン リストで、開発するオフラインパイプラインをクリックします。パイプライン構成ページが開きます。

  4. ページの右上隅で、[コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。

  5. 左側のナビゲーションウィンドウで、[コンポーネントライブラリ] パネルの [入力] をクリックします。右側の入力コンポーネントリストで、[Impala] コンポーネントを見つけ、キャンバス上にドラッグします。

  6. Impala 入力コンポーネントカードの image アイコンをクリックして、[Impala] [入力設定] ダイアログボックスを開きます。

  7. [Impala Input Configuration] ダイアログボックスで、パラメーターを設定します。

    パラメーター

    説明

    ステップ名

    Teradata 入力コンポーネントの名前です。Dataphin はステップ名を自動的に生成します。ビジネス シナリオに応じて、この名前を変更できます。以下の命名規則を使用してください。

    • 漢字、英字、アンダースコア (_)、および数字のみを使用します。

    • 64 文字以下を使用します。

    データソース

    ドロップダウンリストには、Dataphin 内のすべての Impala データソースが表示されます。これには、同期読み取り権限を持つデータソースと持たないデータソースが含まれます。image アイコンをクリックして、現在のデータソース名をコピーします。

    ソーステーブル数

    ソーステーブルの数を指定します。オプションは [Single table][Multiple tables] です。

    • [Single table]: 1 つのソーステーブルから 1 つのターゲットテーブルにビジネスデータを同期する場合に、このオプションを使用します。

    • [Multiple tables]: 複数のソーステーブルから 1 つのターゲットテーブルにビジネスデータを同期する場合に、このオプションを使用します。複数のテーブルから 1 つのテーブルにデータを書き込む場合、Dataphin は UNION アルゴリズムを使用します。

    テーブルマッチング方法

    [汎用ルール] のみを選択できます。

    説明

    このパラメーターは、ソーステーブル数に [Multiple tables] を選択した場合にのみ使用できます。

    テーブル

    ソーステーブルを選択します。

    • ソーステーブル数に [Single table] を選択した場合は、キーワードを入力してテーブル名を検索します。image アイコンをクリックして、選択したテーブルの名前をコピーします。

    • ソーステーブル数に [Multiple tables] を選択した場合は、次のようにテーブルを追加します。

      1. 入力ボックスに、同じ構造を持つテーブルをフィルタリングする式を入力します。

        サポートされているフォーマットには、列挙、正規表現のようなパターン、およびそれらの組み合わせが含まれます。例: table_[001-100];table_102.

      2. [完全一致] をクリックします。[一致詳細の確認] ダイアログボックスで、一致したテーブルのリストを確認します。

      3. [確定] をクリックします。

    シャードキー

    ソーステーブルから整数データ型の列をシャードキーとして選択します。プライマリキーまたはインデックス付き列をシャードキーとして使用することを推奨します。データ読み取り中、Dataphin はシャードキーフィールドによってデータをパーティション分割し、同時読み取りを可能にします。これにより、同期効率が向上します。

    バッチ読み取りサイズ

    一度に読み取るレコード数。データソースとのインタラクションを減らし、I/O 効率を向上させ、ネットワーク遅延を低減するために、レコードを1つずつ読み取るのではなく、1024 などのバッチ読み取りサイズを設定します。

    入力フィルター

    抽出するデータをフィルタリングする条件を設定します。次のように設定します。

    • 静的フィールドを使用して特定のデータを抽出します。例: ds=20210101

    • 変数パラメーターを使用してデータの一部を抽出します。例: ds=${bizdate}

    出力フィールド

    出力フィールドセクションには、選択したテーブルから入力フィルターによってフィルタリングされたすべてのフィールドがリストされます。ダウンストリームコンポーネントからフィールドを除外するには、それらを削除します。

    • 一度に1つのフィールドを削除する: [操作] 列の sgaga アイコンをクリックして、不要なフィールドを削除します。

    • 複数のフィールドを一度に削除: 「[フィールド管理]」をクリックします。『[フィールド管理]』ダイアログボックスで、複数のフィールドを選択します。左シフトアイコン image をクリックして、選択した入力フィールドを未選択リストに移動します。「[OK]」をクリックして、一括削除を完了します。

      image..png

  8. [Confirm] をクリックして、Impala 入力コンポーネントの設定を完了します。