Dataphin 入力コンポーネントで Lindorm データをバッチ同期 - Dataphin

Lindorm 入力コンポーネントは、Lindorm データソースからデータを読み取るように設計されています。 Lindorm データソースから他のデータソースにデータを同期する場合、まず Lindorm 入力コンポーネントのソースデータソース情報を構成し、次にデータ同期のターゲットデータソースの構成を行う必要があります。このトピックでは、Lindorm 入力コンポーネントを構成する手順について説明します。

前提条件

Lindorm データソースが作成されていること。詳細については、「Lindorm データソースを作成する」をご参照ください。
Lindorm 入力コンポーネントのプロパティを構成するには、アカウントにデータソースのリードスルー権限が必要です。必要な権限がない場合は、データソースから取得する必要があります。詳細については、「データソース権限をリクエストする」をご参照ください。

手順

Dataphin ホームページで、トップメニューバーから [開発] > [data Integration] を選択します。
統合ページのトップメニューバーで、プロジェクト を選択します（開発-本番モードでは環境を選択する必要があります）。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発する オフラインパイプライン をクリックして構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントのリストで [lindorm] コンポーネントを見つけ、キャンバスにドラッグします。
Lindorm 入力コンポーネントカードのアイコンをクリックして、[lindorm] [入力構成] ダイアログボックスを開きます。

[lindorm 入力構成] ダイアログボックスで、パラメーターを構成します。

パラメーター	説明
[ステップ名]	これは Lindorm 入力コンポーネントの名前です。 Dataphin はステップ名を自動的に生成し、ビジネスシナリオに応じて変更できます。命名規則は次のとおりです。日本語、英字、アンダースコア（_）、数字のみ使用できます。 64 文字を超えることはできません。
[データソース]	データソースドロップダウンリストには、現在の Dataphin 内のすべての Lindorm タイプのデータソースが表示されます。これには、リードスルー権限を持つデータソースと持たないデータソースが含まれます。アイコンをクリックして、現在のデータソース名をコピーします。リードスルー権限のないデータソースの場合、データソースの後に [リクエスト] をクリックして、リードスルー権限をリクエストできます。詳細については、「データソース権限をリクエストする」をご参照ください。 Lindorm タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「Lindorm データソースを作成する」をご参照ください。
[テーブル]	データ同期用のソーステーブルを選択します。アイコンをクリックして、現在選択されているテーブルの名前をコピーします。重要プライマリキーを持つ iceberg 形式のテーブルはサポートされていません。
[入力フィルター]	フィルタリングは、iceberg ストレージ形式でのみサポートされています。サポートされている論理演算子は、and、or、not です。サポートされている関係演算子は、>、>=、<、<=、=、!=、like、not like、is null、is not null です。 `like` 演算子は、特定の文字列で始まるレコードの照合のみをサポートします。 `not like` 演算子は、`name like 'abc%'` など、特定の文字列で始まらないレコードの照合のみをサポートします。
[パーティション]	ソーステーブルがパーティションテーブルの場合は、パーティション情報を構成する必要があります。 `ds=20230101` や `/query/ds>=20230101 and ds<=20230107` など、単一または複数のパーティションがサポートされています。 `ds=${bizdate}` などのパラメーターがサポートされています。
[ファイルエンコーディング]	ソーステーブルのファイルエンコーディングを選択します。 UTF-8 と GBK がサポートされています。
[圧縮形式]	ファイルが圧縮されている場合は、対応する圧縮形式を選択して、Dataphin が解凍できるようにします。これは必須フィールドではありません。サポートされている形式は、gzip、bzip2、lzo、lzo_deflate、hadoop-snappy、framing-snappy、zip、zlib です。 orc テーブルのデフォルト形式は zlib です。他の解凍形式が必要な場合は、指定する必要があります。他の形式のテーブルにはデフォルト形式はありません。
[フィールド区切り文字]	この区切り文字を使用してターゲットに書き込みます。指定しない場合、デフォルトは `\u0001` です。
[出力フィールド]	出力フィールド領域には、選択したテーブルとフィルター条件に一致するすべてのフィールドが表示されます。特定のフィールドをダウンストリームコンポーネントに出力する必要がない場合は、対応するフィールドを削除できます。単一フィールド削除シナリオ: 少数のフィールドを削除する必要がある場合は、操作列のアイコンをクリックして、余分なフィールドを削除できます。バッチフィールド削除シナリオ: 多くのフィールドを削除する必要がある場合は、[フィールド管理] をクリックし、[フィールド管理] ダイアログボックスで複数のフィールドを選択し、左シフトアイコンをクリックして、選択した入力フィールドを未選択の入力フィールドに移動し、[確認] をクリックしてフィールドのバッチ削除を完了します。

[確認] をクリックして、Lindorm 入力コンポーネントのプロパティ構成を完了します。