Impala 入力コンポーネントは、Impala データソースからデータを読み取るために使用されます。Impala から他のデータソースにデータを同期する場合、同期用にターゲットデータソースを設定する前に、データソースにアクセスするように Impala 入力コンポーネントを構成する必要があります。このトピックでは、Impala 入力コンポーネントの構成プロセスについて説明します。
前提条件
Impala データソースが作成されていること。詳細については、「Impala データソースを作成する」をご参照ください。
Impala 入力コンポーネントのプロパティを構成するアカウントは、データソースに対するリードスルー権限を持っている必要があります。この権限がない場合は、データソースから取得する必要があります。詳細については、「データソース権限をリクエスト、更新、および返却する」をご参照ください。
手順
Dataphin ホームページの上部メニューバーから、[開発] > [data Integration] を選択します。
統合ページの上部メニューバーから [プロジェクト] を選択します(開発-本番モードでは環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発する [オフラインパイプライン] をクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントのリスト内にある [impala] コンポーネントを見つけて、キャンバスにドラッグします。
Impala 入力コンポーネントカードの
アイコンをクリックして、[impala] [入力構成] ダイアログボックスを開きます。[Impala 入力構成] ダイアログボックスで、パラメーターを構成できます。
パラメーター
説明
ステップ名
これは、Teradata 入力コンポーネントの名前です。Dataphin はステップ名を自動的に生成しますが、ビジネスシナリオに応じて変更できます。命名規則は次のとおりです。
中国語の文字、英字、アンダースコア(_)、および数字のみ使用できます。
64 文字を超えることはできません。
データソース
データソースのドロップダウンリストには、現在の Dataphin にあるすべての Impala タイプのデータソースが表示されます。これには、リードスルー権限を持っているデータソースと持っていないデータソースが含まれます。
アイコンをクリックして、現在のデータソースの名前をコピーします。リードスルー権限のないデータソースの場合、対応するデータソースの読み取り権限をリクエストできます。データソースの読み取り権限をリクエストする具体的な操作については、「データソース権限をリクエスト、更新、および返却する」をご参照ください。
まだ Impala タイプのデータソースがない場合は、[作成] をクリックしてデータソースを作成します。具体的な操作については、「Impala データソースを作成する」をご参照ください。
ソーステーブル数量
ソーステーブル数量を選択します。ソーステーブル数量には、[単一テーブル] と [複数テーブル] が含まれます。
[単一テーブル]:1 つのテーブルのビジネスデータを 1 つのターゲットテーブルに同期するシナリオに適しています。
[複数テーブル]:複数のテーブルのビジネスデータを同じターゲットテーブルに同期するシナリオに適しています。複数のテーブルのデータを同じデータテーブルに書き込む場合、UNION アルゴリズムが使用されます。
テーブル
ソーステーブルを選択します。
[ソーステーブル数量] が [単一テーブル] に設定されている場合は、テーブル名のキーワードを入力して検索できます。
アイコンをクリックして、現在選択されているテーブルの名前をコピーします。[ソーステーブル数量] が [複数テーブル] に設定されている場合は、次の操作を実行してテーブルを追加します。
入力ボックスに、[同じ構造のテーブル] をフィルタリングするテーブルの式を入力します。
システムは、列挙形式、クラス正規表現形式、および混合形式をサポートしています。たとえば、
table_[001-100];table_102。[精密検索] をクリックして、[一致の詳細を確認] ダイアログボックスで一致するテーブルのリストを表示します。
[確認] をクリックします。
シャードキー
ソースデータテーブルの [整数] データ型の列をシャードキーとして使用できます。[プライマリキー] または [インデックス] を持つ列をシャードキーとして使用することをお勧めします。データを読み取るときに、構成されたシャードキーフィールドに基づいてデータシャーディングが実行され、同時読み取りが実現し、データ同期の効率が向上します。
バッチ読み取り数
一度に読み取るデータレコードの数。ソースデータベースからデータを読み取るときに、1 つずつ読み取るのではなく、特定のバッチ読み取り数(1024 レコードなど)を構成して、データソースとの対話の回数を減らし、I/O 効率を向上させ、ネットワーク遅延を削減できます。
入力フィルター
データを抽出するためのフィルター条件を構成します。構成手順は次のとおりです。
静的フィールドを構成して対応するデータを抽出します。たとえば、
ds=20210101。変数パラメーターを構成してデータの一部を抽出します。たとえば、
ds=${bizdate}。
出力フィールド
出力フィールド領域には、選択したテーブルとフィルター条件に一致するすべてのフィールドが表示されます。特定のフィールドをダウンストリームコンポーネントに出力する必要がない場合は、対応するフィールドを削除できます。
[単一フィールド削除シナリオ]:少数のフィールドを削除する必要がある場合は、操作列の下にある
アイコンをクリックして、余分なフィールドを削除できます。[バッチフィールド削除シナリオ]:多数のフィールドを削除する必要がある場合は、[フィールド管理] をクリックし、[フィールド管理] ダイアログボックスで複数のフィールドを選択し、
左シフトアイコンをクリックして、選択した入力フィールドを選択されていない入力フィールドに移動し、[確認] をクリックしてフィールドのバッチ削除を完了します。
[確認] をクリックして、[Impala 入力コンポーネント] のプロパティ構成を確定します。