Amazon RDS for PostgreSQL 入力コンポーネントは、Amazon RDS for PostgreSQL データソースからデータを読み取ります。Amazon RDS for PostgreSQL データソースから他のデータソースにデータを同期する必要がある場合は、まず Amazon RDS for PostgreSQL 入力コンポーネントが読み取るソースデータソースを設定し、次に宛先データソースを設定する必要があります。このトピックでは、Amazon RDS for PostgreSQL 入力コンポーネントを設定する方法について説明します。
前提条件
Amazon RDS for PostgreSQL データソースを作成済みであること。詳細については、「Amazon RDS for PostgreSQL データソースを作成する」をご参照ください。
Amazon RDS for PostgreSQL 入力コンポーネントのプロパティを設定するために使用するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソース権限をリクエストする必要があります。詳細については、「データソース権限のリクエスト、更新、および返却」をご参照ください。
手順
Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。
手順統合ページの上部ナビゲーションバーで、 を選択します(開発 - 本番モードでは、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発する オフラインパイプライン をクリックして構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントリストで [Amazon RDS For PostgreSQL] コンポーネントを見つけ、キャンバスにドラッグします。
Amazon RDS for PostgreSQL 入力コンポーネントカードの
アイコンをクリックして、[Amazon RDS For PostgreSQL] [入力設定] ダイアログボックスを開きます。[Amazon RDS For PostgreSQL 入力設定] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
ステップ名
Amazon RDS for PostgreSQL 入力コンポーネントの名前。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに基づいて変更できます。名前は次の要件を満たしている必要があります。
中国語、英字、アンダースコア(_)、数字のみ使用できます。
最大 64 文字まで使用できます。
データソース
データソースのドロップダウンリストには、リードスルー権限を持っているデータソースと持っていないデータソースを含め、すべての Amazon RDS for PostgreSQL データソースが表示されます。
アイコンをクリックして、現在のデータソース名をコピーします。リードスルー権限を持っていないデータソースの場合、データソースの横にある [リクエスト] をクリックして、対応するデータソースの読み取り権限をリクエストできます。データソースの読み取り権限のリクエスト方法の詳細については、「データソース権限のリクエスト、更新、および返却」をご参照ください。
Amazon RDS for PostgreSQL データソースがない場合は、[データソースの作成] をクリックして作成します。詳細については、「Amazon RDS for PostgreSQL データソースを作成する」をご参照ください。
スキーマ (オプション)
スキーマを跨いでテーブルを選択できます。テーブルが配置されているスキーマを選択します。スキーマを指定しない場合、システムはデフォルトでデータソースに設定されているスキーマを使用します。
ソーステーブル数量
ソーステーブル数量を選択します。オプションには、[単一テーブル] と [複数テーブル] があります。
[単一テーブル]: このオプションは、1 つのテーブルのビジネスデータを 1 つの宛先テーブルに同期する場合に適しています。
[複数テーブル]: このオプションは、複数のテーブルのビジネスデータを同じ宛先テーブルに同期する場合に適しています。複数のテーブルのデータが同じデータテーブルに書き込まれる場合、UNION アルゴリズムが使用されます。
UNION の詳細については、「INTERSECT、UNION、および EXCEPT」をご参照ください。
テーブル
ソーステーブルを選択します。
ソーステーブル数 で 単一テーブル を選択した場合は、キーワードを入力してテーブルを検索するか、正確なテーブル名を入力して [完全一致] をクリックします。テーブルを選択すると、システムは自動的にテーブルのステータスをチェックします。
アイコンをクリックして、選択したテーブルの名前をコピーします。ソーステーブル数 で 複数テーブル を選択した場合は、次の手順を実行してテーブルを追加します。
入力ボックスにテーブル式を入力して、同じ構造のテーブルをフィルタリングします。
システムは、列挙形式、正規表現のような形式、および両方の組み合わせをサポートしています。例:
table_[001-100];table_102。[完全一致] をクリックします。[一致の詳細の確認] ダイアログボックスで、一致したテーブルのリストを表示します。
[OK] をクリックします。
シャードキー (オプション)
システムは、設定されたシャードキーフィールドに基づいてデータをシャーディングします。このパラメーターを同時読み取り設定と組み合わせて使用すると、同時読み取りを実装できます。ソースデータテーブルの列をシャードキーとして使用できます。転送パフォーマンスを確保するために、プライマリキーまたはインデックス付きの列をシャードキーとして使用することをお勧めします。
重要日付と時刻のタイプを選択すると、システムは最大値と最小値を識別し、合計時間範囲と同時実行性に基づいて強制シャーディングを実行します。均等な分散は保証されません。
バッチ読み取り数 (オプション)
一度に読み取るレコードの数。ソースデータベースからデータを読み取るときに、レコードを 1 つずつ読み取る代わりに、特定のバッチ読み取り数(例:1,024 レコード)を設定できます。これにより、データソースとの対話の回数が減り、I/O 効率が向上し、ネットワークレイテンシが減少します。
入力フィルター (オプション)
入力フィールドのフィルター情報を入力します。例:
ds=${bizdate}。[入力フィルター] は、次の 2 つのシナリオに適用できます。データの固定部分をフィルタリングする。
パラメーターフィルタリング。
出力フィールド
出力フィールド領域には、選択したテーブルのすべてのフィールドと、フィルター条件に一致するフィールドが表示されます。次の操作を実行できます。
フィールド管理: 特定のフィールドをダウンストリームコンポーネントに出力する必要がない場合は、これらのフィールドを削除できます。
単一フィールドの削除: 少量のフィールドを削除する必要がある場合は、[操作] 列の
アイコンをクリックして、不要なフィールドを削除できます。複数フィールドの一括削除: 多数のフィールドを削除する必要がある場合は、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで、複数のフィールドを選択し、
左矢印アイコンをクリックして、選択した入力フィールドを未選択の入力フィールドに移動し、[OK] をクリックして、フィールドの一括削除を完了します。
一括追加: [一括追加] をクリックして、JSON 形式、TEXT 形式、または DDL 形式のフィールドを一括設定します。
説明一括追加を完了して [OK] をクリックすると、設定されたフィールド情報が 上書き されます。
JSON 形式でフィールドを設定します。例:
// 例: [{ "index": 0, "name": "id", "type": "int(10)", "mapType": "Long", "comment": "comment1" // コメント 1 }, { "index": 1, "name": "user_name", "type": "varchar(255)", "mapType": "String", "comment": "comment2" // コメント 2 }]説明index は指定されたオブジェクトの列番号、name はインポート後のフィールド名、type はインポート後のフィールドタイプを示します。たとえば、
"index":3,"name":"user_id","type":"String"は、ファイルの 4 番目の列がフィールド名 user_id とフィールドタイプ String でインポートされることを示します。TEXT 形式でフィールドを設定します。例:
// 例: 0,id,int(10),Long,comment1 // コメント 1 1,user_name,varchar(255),Long,comment2 // コメント 2行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行(\n)です。サポートされている区切り文字には、改行(\n)、セミコロン(;)、ピリオド(.)が含まれます。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ(,)です。サポートされている区切り文字には
','が含まれます。フィールドタイプは省略できます。デフォルトは','です。
DDL 形式でフィールドを設定します。例:
CREATE TABLE tablename ( user_id serial, -- ユーザーID username VARCHAR(50), -- ユーザー名 password VARCHAR(50), -- パスワード email VARCHAR (255), -- メールアドレス created_on TIMESTAMP -- 作成日時 );
新しい出力フィールドの作成: [+ 出力フィールドの作成] をクリックします。ページのプロンプトに従って、[列]、[タイプ]、[コメント] を入力し、[マッピングタイプ] を選択します。現在の行の設定が完了したら、
アイコンをクリックして保存します。
[OK] をクリックして、[Amazon RDS For PostgreSQL] 入力コンポーネントのプロパティ設定を完了します。