入力コンポーネントによる Dataphin オフラインパイプラインでの Greenplum データ同期 - Dataphin

Greenplum 入力コンポーネントは、Greenplum データソースからデータを読み取ります。Greenplum データソースから別のデータソースへデータを同期するには、まず Greenplum 入力コンポーネントを設定してソースからデータを読み取ります。その後、データ同期先のデータソースを設定します。本トピックでは、Greenplum 入力コンポーネントの設定方法について説明します。

前提条件

Greenplum データソースを作成しました。詳細については、「Greenplum データソースを作成する」をご参照ください。
Greenplum 入力コンポーネントのプロパティを設定するアカウントには、データソースに対するリードスルー権限が必要です。必要な権限が付与されていない場合は、権限の付与を依頼してください。詳細については、「データソースの権限を依頼する」をご参照ください。

操作手順

Dataphin のホームページ上部のメニューバーで、[開発者] → [データ統合] を選択します。
統合ページ上部のメニューバーで、[プロジェクト] を選択します。Dev-Prod モードを使用している場合は、環境も併せて選択する必要があります。
左側のナビゲーションウィンドウで、[オフライン統合] をクリックします。[オフライン統合] 一覧から、開発対象の [オフラインパイプライン] をクリックし、その構成ページを開きます。
ページ右上隅の [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側ナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネント一覧から [Greenplum] コンポーネントを見つけ、キャンバスにドラッグします。
Greenplum 入力コンポーネントカードで、アイコンをクリックして [Greenplum] [入力設定] ダイアログボックスを開きます。

[Greenplum] [入力設定] ダイアログボックスで、パラメーターを設定します。

パラメーター	説明
[ステップ名]	Greenplum 入力コンポーネントの名称です。Dataphin が自動的にステップ名を生成しますが、必要に応じて変更可能です。命名規則は以下のとおりです：中国語文字、英字、アンダースコア (_)、数字のみ使用できます。最大 64 文字までです。
データソース	ドロップダウンリストには、Dataphin 内のすべての Greenplum データソースが表示されます。これは、ご利用のアカウントがリードスルー権限を持つデータソースおよび持たないデータソースの両方を含みます。データソースに対してリードスルー権限がない場合は、横にある [リクエスト] をクリックして権限を依頼してください。詳細については、「データソースの権限を依頼する」をご参照ください。 Greenplum データソースが存在しない場合は、[新規作成] をクリックして作成してください。詳細については、「Greenplum データソースの作成」をご参照ください。
スキーマ	ソーステーブルを含むスキーマを選択します。複数のスキーマにまたがるテーブルの読み取りがサポートされています。データソース接続でスキーマが指定されている場合、それがデフォルトで選択されます。また、権限を持つ他のスキーマを選択することもできます。
ソーステーブル数量	ソーステーブルの数を選択します。「単一テーブル」と「複数テーブル」のいずれかを選択できます： [単一テーブル]：1 つのテーブルから 1 つの送信先テーブルへデータを同期する場合に使用します。 [複数テーブル]：複数のテーブルから 1 つの送信先テーブルへデータを同期する場合に使用します。列挙、正規表現風のパターン、またはその両方の組み合わせ（例：`table_[001-100];table_102`）がサポートされます。
[テーブル一致モード]	[一般ルール] または [データベース正規表現] のいずれかを選択します。説明このパラメーターは、「[ソーステーブル数]」が「[複数テーブル]」に設定されている場合のみ利用可能です。
テーブル	ソーステーブルまたはテーブルの一覧を選択します：「[ソーステーブル数]」で [単一テーブル] を選択した場合、テーブル名のキーワードを入力して検索するか、正確なテーブル名を入力して [完全一致] をクリックします。テーブルを選択すると、システムが自動的にそのステータスを確認します。選択したテーブル名をコピーするには、アイコンをクリックします。「[ソーステーブル数]」で [複数テーブル] を選択した場合、選択したテーブル一致モードに基づいて式を入力してテーブルを追加します。一致モードとして [一般ルール] を選択した場合、入力ボックスに式を入力して、構造が同一のテーブルをフィルターします。システムは列挙、正規表現風のパターン、およびその両方の組み合わせをサポートします。例：`table_[001-100];table_102;`。一致モードとして [データベース正規表現] を選択した場合、現在のデータベースでサポートされる正規表現を入力します。システムはこの式を用いてターゲットデータベース内のテーブルをマッチさせます。実行時に、ノードは正規表現に基づいて最新のテーブルセットをマッチし、同期を行います。式を入力した後、[完全一致] をクリックして、[一致詳細の確認] ダイアログボックスにマッチしたテーブルの一覧を表示します。
分割キー	ソーステーブルから、整数型の列を分割キーとして選択します。最適な結果を得るには、プライマリキーまたはインデックス付き列を使用することを推奨します。データ読み取り時に、システムは分割キーに基づいてデータをパーティション化し、同時読み取りを実行することで、データ同期効率を向上させます。
バッチ読み取りサイズ	1 回のバッチで読み取るレコード数です。1 レコードずつ読み取る代わりに、1024 レコードなど、バッチサイズを設定できます。これにより、データソースとのやり取りが削減され、I/O 効率が向上し、ネットワーク遅延が低減されます。
[入力フィルター]	特定のデータを抽出するためのフィルター条件を設定します。設定方法は以下のとおりです：静的な値を設定して対応するデータを抽出します。例：`ds=20210101`。変数を設定してサブセットのデータを抽出します。例：`ds=${bizdate}`。
出力フィールド	「出力フィールド」セクションには、選択したテーブルからフィルター条件に一致するすべてのフィールドが表示されます。以下の操作がサポートされています：フィールド管理：一部のフィールドを後続コンポーネントに出力しない場合は、それらを削除できます：単一フィールドの削除：少数のフィールドを削除する場合、[操作] 列のアイコンをクリックして不要なフィールドを削除します。複数フィールドの一括削除：多数のフィールドを削除する場合、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで複数のフィールドを選択し、左矢印アイコンをクリックして未選択リストに移動させ、その後 [OK] をクリックします。一括追加：JSON、TEXT、DDL 形式でフィールドを一括設定するには、[一括追加] をクリックします。説明一括追加後に [OK] をクリックすると、既存のフィールド設定が上書きされます。 JSON 形式での設定例： `// 例: [{ "index": 1, "name": "id", "type": "int(10)", "mapType": "Long", "comment": "comment1" }, { "index": 2, "name": "user_name", "type": "varchar(255)", "mapType": "String", "comment": "comment2" }]` 説明 index はオブジェクトの列番号を指定し、name はインポート後のフィールド名を指定し、type はインポート後のフィールドの型を指定します。例：`"index":3,"name":"user_id","type":"String"` は、ファイルの 4 列目をインポートし、フィールド名を user_id とし、フィールドの型を String に設定することを意味します。 TEXT 形式での設定例： `// 例: 1,id,int(10),Long,comment1 2,user_name,varchar(255),Long,comment2` 行区切り文字は各フィールドの情報を区切ります。デフォルトの区切り文字は改行 (\n) ですが、セミコロン (;) やピリオド (.) もサポートされます。列区切り文字はフィールド名とフィールド型を区切ります。デフォルトは半角カンマ (,) です。`','` を使用できます。フィールド型は省略可能で、デフォルトは `','` です。 DDL 形式での設定例： `CREATE TABLE tablename ( user_id serial, username VARCHAR(50), password VARCHAR(50), email VARCHAR (255), created_on TIMESTAMP, );` 出力フィールドの追加：[＋出力フィールドの追加] をクリックします。画面上の指示に従って、[列]、[型]、[コメント] を入力し、[マッピング型] を選択します。現在の行の設定が完了したら、アイコンをクリックして保存します。

[確認] をクリックして、Greenplum 入力コンポーネントの構成を保存します。