すべてのプロダクト
Search
ドキュメントセンター

Dataphin:Impala 入力コンポーネントの構成

最終更新日:Mar 06, 2025

Impala 入力コンポーネントは、Impala データソースからデータを読み取るために使用されます。Impala から他のデータソースにデータを同期する場合、同期用にターゲットデータソースを設定する前に、データソースにアクセスするように Impala 入力コンポーネントを構成する必要があります。このトピックでは、Impala 入力コンポーネントの構成プロセスについて説明します。

前提条件

手順

  1. Dataphin ホームページの上部メニューバーから、[開発] > [data Integration] を選択します。

  2. 統合ページの上部メニューバーから [プロジェクト] を選択します(開発-本番モードでは環境を選択する必要があります)。

  3. 左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発する [オフラインパイプライン] をクリックして、構成ページを開きます。

  4. ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。

  5. [コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントのリスト内にある [impala] コンポーネントを見つけて、キャンバスにドラッグします。

  6. Impala 入力コンポーネントカードの image アイコンをクリックして、[impala] [入力構成] ダイアログボックスを開きます。

  7. [Impala 入力構成] ダイアログボックスで、パラメーターを構成できます。

    パラメーター

    説明

    ステップ名

    これは、Teradata 入力コンポーネントの名前です。Dataphin はステップ名を自動的に生成しますが、ビジネスシナリオに応じて変更できます。命名規則は次のとおりです。

    • 中国語の文字、英字、アンダースコア(_)、および数字のみ使用できます。

    • 64 文字を超えることはできません。

    データソース

    データソースのドロップダウンリストには、現在の Dataphin にあるすべての Impala タイプのデータソースが表示されます。これには、リードスルー権限を持っているデータソースと持っていないデータソースが含まれます。image アイコンをクリックして、現在のデータソースの名前をコピーします。

    • リードスルー権限のないデータソースの場合、対応するデータソースの読み取り権限をリクエストできます。データソースの読み取り権限をリクエストする具体的な操作については、「データソース権限をリクエスト、更新、および返却する」をご参照ください。

    • まだ Impala タイプのデータソースがない場合は、[作成] をクリックしてデータソースを作成します。具体的な操作については、「Impala データソースを作成する」をご参照ください。

    ソーステーブル数量

    ソーステーブル数量を選択します。ソーステーブル数量には、[単一テーブル][複数テーブル] が含まれます。

    • [単一テーブル]:1 つのテーブルのビジネスデータを 1 つのターゲットテーブルに同期するシナリオに適しています。

    • [複数テーブル]:複数のテーブルのビジネスデータを同じターゲットテーブルに同期するシナリオに適しています。複数のテーブルのデータを同じデータテーブルに書き込む場合、UNION アルゴリズムが使用されます。

    テーブル

    ソーステーブルを選択します。

    • [ソーステーブル数量][単一テーブル] に設定されている場合は、テーブル名のキーワードを入力して検索できます。image アイコンをクリックして、現在選択されているテーブルの名前をコピーします。

    • [ソーステーブル数量][複数テーブル] に設定されている場合は、次の操作を実行してテーブルを追加します。

      1. 入力ボックスに、[同じ構造のテーブル] をフィルタリングするテーブルの式を入力します。

        システムは、列挙形式、クラス正規表現形式、および混合形式をサポートしています。たとえば、table_[001-100];table_102

      2. [精密検索] をクリックして、[一致の詳細を確認] ダイアログボックスで一致するテーブルのリストを表示します。

      3. [確認] をクリックします。

    シャードキー

    ソースデータテーブルの [整数] データ型の列をシャードキーとして使用できます。[プライマリキー] または [インデックス] を持つ列をシャードキーとして使用することをお勧めします。データを読み取るときに、構成されたシャードキーフィールドに基づいてデータシャーディングが実行され、同時読み取りが実現し、データ同期の効率が向上します。

    バッチ読み取り数

    一度に読み取るデータレコードの数。ソースデータベースからデータを読み取るときに、1 つずつ読み取るのではなく、特定のバッチ読み取り数(1024 レコードなど)を構成して、データソースとの対話の回数を減らし、I/O 効率を向上させ、ネットワーク遅延を削減できます。

    入力フィルター

    データを抽出するためのフィルター条件を構成します。構成手順は次のとおりです。

    • 静的フィールドを構成して対応するデータを抽出します。たとえば、ds=20210101

    • 変数パラメーターを構成してデータの一部を抽出します。たとえば、ds=${bizdate}

    出力フィールド

    出力フィールド領域には、選択したテーブルとフィルター条件に一致するすべてのフィールドが表示されます。特定のフィールドをダウンストリームコンポーネントに出力する必要がない場合は、対応するフィールドを削除できます。

    • [単一フィールド削除シナリオ]:少数のフィールドを削除する必要がある場合は、操作列の下にある sgaga アイコンをクリックして、余分なフィールドを削除できます。

    • [バッチフィールド削除シナリオ]:多数のフィールドを削除する必要がある場合は、[フィールド管理] をクリックし、[フィールド管理] ダイアログボックスで複数のフィールドを選択し、image 左シフトアイコンをクリックして、選択した入力フィールドを選択されていない入力フィールドに移動し、[確認] をクリックしてフィールドのバッチ削除を完了します。

      image..png

  8. [確認] をクリックして、[Impala 入力コンポーネント] のプロパティ構成を確定します。