Impala 入力コンポーネントは、Impala データソースからデータを取得します。Impala データソースから別のデータソースへデータを同期するには、まず Impala 入力コンポーネントをソースから読み取るように設定します。次に、同期するターゲットデータソースを設定します。このトピックでは、Impala 入力コンポーネントの設定方法について説明します。
前提条件
Impala データソースを作成済みであること。詳細については、「Impala データソースの作成」をご参照ください。
Impala 入力コンポーネントを設定するために使用するアカウントには、データソースに対する同期読み取り権限が必要です。権限がない場合は、権限をリクエストしてください。詳細については、「データソース権限のリクエスト、更新、またはリリース」をご参照ください。
操作手順
Dataphin ホームページの上部のメニューバーで、[開発] > [データ統合] を選択します。
[Data Integration] ページで、[Project] を選択します。Dev-Prod モードでは、環境も選択します。
左側のナビゲーションウィンドウで、バッチパイプライン をクリックします。バッチパイプライン リストで、開発するオフラインパイプラインをクリックします。パイプライン構成ページが開きます。
ページの右上隅で、[コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
左側のナビゲーションウィンドウで、[コンポーネントライブラリ] パネルの [入力] をクリックします。右側の入力コンポーネントリストで、[Impala] コンポーネントを見つけ、キャンバス上にドラッグします。
Impala 入力コンポーネントカードの
アイコンをクリックして、[Impala] [入力設定] ダイアログボックスを開きます。[Impala Input Configuration] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
ステップ名
Teradata 入力コンポーネントの名前です。Dataphin はステップ名を自動的に生成します。ビジネス シナリオに応じて、この名前を変更できます。以下の命名規則を使用してください。
漢字、英字、アンダースコア (_)、および数字のみを使用します。
64 文字以下を使用します。
データソース
ドロップダウンリストには、Dataphin 内のすべての Impala データソースが表示されます。これには、同期読み取り権限を持つデータソースと持たないデータソースが含まれます。
アイコンをクリックして、現在のデータソース名をコピーします。データソースに対する同期読み取り権限がない場合は、読み取り権限をリクエストしてください。詳細については、「データソース権限のリクエスト、更新、またはリリース」をご参照ください。
Impala データソースがない場合は、[新規] をクリックして作成します。手順については、「Impala データソースの作成」をご参照ください。「」をご参照ください。
ソーステーブル数
ソーステーブルの数を指定します。オプションは [Single table] と [Multiple tables] です。
[Single table]: 1 つのソーステーブルから 1 つのターゲットテーブルにビジネスデータを同期する場合に、このオプションを使用します。
[Multiple tables]: 複数のソーステーブルから 1 つのターゲットテーブルにビジネスデータを同期する場合に、このオプションを使用します。複数のテーブルから 1 つのテーブルにデータを書き込む場合、Dataphin は UNION アルゴリズムを使用します。
テーブルマッチング方法
[汎用ルール] のみを選択できます。
説明このパラメーターは、ソーステーブル数に [Multiple tables] を選択した場合にのみ使用できます。
テーブル
ソーステーブルを選択します。
ソーステーブル数に [Single table] を選択した場合は、キーワードを入力してテーブル名を検索します。
アイコンをクリックして、選択したテーブルの名前をコピーします。ソーステーブル数に [Multiple tables] を選択した場合は、次のようにテーブルを追加します。
入力ボックスに、同じ構造を持つテーブルをフィルタリングする式を入力します。
サポートされているフォーマットには、列挙、正規表現のようなパターン、およびそれらの組み合わせが含まれます。例:
table_[001-100];table_102.[完全一致] をクリックします。[一致詳細の確認] ダイアログボックスで、一致したテーブルのリストを確認します。
[確定] をクリックします。
シャードキー
ソーステーブルから整数データ型の列をシャードキーとして選択します。プライマリキーまたはインデックス付き列をシャードキーとして使用することを推奨します。データ読み取り中、Dataphin はシャードキーフィールドによってデータをパーティション分割し、同時読み取りを可能にします。これにより、同期効率が向上します。
バッチ読み取りサイズ
一度に読み取るレコード数。データソースとのインタラクションを減らし、I/O 効率を向上させ、ネットワーク遅延を低減するために、レコードを1つずつ読み取るのではなく、1024 などのバッチ読み取りサイズを設定します。
入力フィルター
抽出するデータをフィルタリングする条件を設定します。次のように設定します。
静的フィールドを使用して特定のデータを抽出します。例:
ds=20210101。変数パラメーターを使用してデータの一部を抽出します。例:
ds=${bizdate}。
出力フィールド
出力フィールドセクションには、選択したテーブルから入力フィルターによってフィルタリングされたすべてのフィールドがリストされます。ダウンストリームコンポーネントからフィールドを除外するには、それらを削除します。
一度に1つのフィールドを削除する: [操作] 列の
アイコンをクリックして、不要なフィールドを削除します。複数のフィールドを一度に削除: 「[フィールド管理]」をクリックします。『[フィールド管理]』ダイアログボックスで、複数のフィールドを選択します。左シフトアイコン
をクリックして、選択した入力フィールドを未選択リストに移動します。「[OK]」をクリックして、一括削除を完了します。
[Confirm] をクリックして、Impala 入力コンポーネントの設定を完了します。