Impala 入力コンポーネントによるバッチパイプラインデータ同期の設定 - Dataphin

Impala 入力コンポーネントは、Impala データソースからデータを取得します。Impala データソースから別のデータソースへデータを同期するには、まず Impala 入力コンポーネントをソースから読み取るように設定します。次に、同期するターゲットデータソースを設定します。このトピックでは、Impala 入力コンポーネントの設定方法について説明します。

前提条件

Impala データソースを作成済みであること。詳細については、「Impala データソースの作成」をご参照ください。
Impala 入力コンポーネントを設定するために使用するアカウントには、データソースに対する同期読み取り権限が必要です。権限がない場合は、権限をリクエストしてください。詳細については、「データソース権限のリクエスト、更新、またはリリース」をご参照ください。

操作手順

Dataphin ホームページの上部のメニューバーで、[開発] ＞ [データ統合] を選択します。
[Data Integration] ページで、[Project] を選択します。Dev-Prod モードでは、環境も選択します。
左側のナビゲーションウィンドウで、バッチパイプライン をクリックします。バッチパイプライン リストで、開発するオフラインパイプラインをクリックします。パイプライン構成ページが開きます。
ページの右上隅で、[コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
左側のナビゲーションウィンドウで、[コンポーネントライブラリ] パネルの [入力] をクリックします。右側の入力コンポーネントリストで、[Impala] コンポーネントを見つけ、キャンバス上にドラッグします。
Impala 入力コンポーネントカードのアイコンをクリックして、[Impala] [入力設定] ダイアログボックスを開きます。

[Impala Input Configuration] ダイアログボックスで、パラメーターを設定します。

パラメーター	説明
ステップ名	Teradata 入力コンポーネントの名前です。Dataphin はステップ名を自動的に生成します。ビジネスシナリオに応じて、この名前を変更できます。以下の命名規則を使用してください。漢字、英字、アンダースコア (_)、および数字のみを使用します。 64 文字以下を使用します。
データソース	ドロップダウンリストには、Dataphin 内のすべての Impala データソースが表示されます。これには、同期読み取り権限を持つデータソースと持たないデータソースが含まれます。アイコンをクリックして、現在のデータソース名をコピーします。データソースに対する同期読み取り権限がない場合は、読み取り権限をリクエストしてください。詳細については、「データソース権限のリクエスト、更新、またはリリース」をご参照ください。 Impala データソースがない場合は、[新規] をクリックして作成します。手順については、「Impala データソースの作成」をご参照ください。「」をご参照ください。
ソーステーブル数	ソーステーブルの数を指定します。オプションは [Single table] と [Multiple tables] です。 [Single table]: 1 つのソーステーブルから 1 つのターゲットテーブルにビジネスデータを同期する場合に、このオプションを使用します。 [Multiple tables]: 複数のソーステーブルから 1 つのターゲットテーブルにビジネスデータを同期する場合に、このオプションを使用します。複数のテーブルから 1 つのテーブルにデータを書き込む場合、Dataphin は UNION アルゴリズムを使用します。
テーブルマッチング方法	[汎用ルール] のみを選択できます。説明このパラメーターは、ソーステーブル数に [Multiple tables] を選択した場合にのみ使用できます。
テーブル	ソーステーブルを選択します。ソーステーブル数に [Single table] を選択した場合は、キーワードを入力してテーブル名を検索します。アイコンをクリックして、選択したテーブルの名前をコピーします。ソーステーブル数に [Multiple tables] を選択した場合は、次のようにテーブルを追加します。入力ボックスに、同じ構造を持つテーブルをフィルタリングする式を入力します。サポートされているフォーマットには、列挙、正規表現のようなパターン、およびそれらの組み合わせが含まれます。例: `table_[001-100];table_102`. [完全一致] をクリックします。[一致詳細の確認] ダイアログボックスで、一致したテーブルのリストを確認します。 [確定] をクリックします。
シャードキー	ソーステーブルから整数データ型の列をシャードキーとして選択します。プライマリキーまたはインデックス付き列をシャードキーとして使用することを推奨します。データ読み取り中、Dataphin はシャードキーフィールドによってデータをパーティション分割し、同時読み取りを可能にします。これにより、同期効率が向上します。
バッチ読み取りサイズ	一度に読み取るレコード数。データソースとのインタラクションを減らし、I/O 効率を向上させ、ネットワーク遅延を低減するために、レコードを1つずつ読み取るのではなく、1024 などのバッチ読み取りサイズを設定します。
入力フィルター	抽出するデータをフィルタリングする条件を設定します。次のように設定します。静的フィールドを使用して特定のデータを抽出します。例: `ds=20210101`。変数パラメーターを使用してデータの一部を抽出します。例: `ds=${bizdate}`。
出力フィールド	出力フィールドセクションには、選択したテーブルから入力フィルターによってフィルタリングされたすべてのフィールドがリストされます。ダウンストリームコンポーネントからフィールドを除外するには、それらを削除します。一度に1つのフィールドを削除する: [操作] 列のアイコンをクリックして、不要なフィールドを削除します。複数のフィールドを一度に削除: 「[フィールド管理]」をクリックします。『[フィールド管理]』ダイアログボックスで、複数のフィールドを選択します。左シフトアイコンをクリックして、選択した入力フィールドを未選択リストに移動します。「[OK]」をクリックして、一括削除を完了します。

[Confirm] をクリックして、Impala 入力コンポーネントの設定を完了します。