DM 入力コンポーネントの設定によるデータ統合の有効化 - Dataphin

DM 入力コンポーネントを設定すると、DM データソースから Dataphin にデータを取得して、Data Integration とデータ開発を行うことができます。このトピックでは、DM 入力コンポーネントの設定方法について説明します。

前提条件

DM データソースが作成されていること。詳細については、「DM データソースの作成」をご参照ください。
DM 入力コンポーネントを設定するアカウントに、データソースに対するリードスルー権限が付与されていること。この権限がない場合は、申請してください。詳細については、「データソース権限の申請、更新、返却」をご参照ください。

操作手順

Dataphin ホームページの上部メニューバーで、[開発] > [Data Integration] を選択します。
Data Integration ページの上部メニューバーで、プロジェクトを選択します。Dev-Prod モードでは、環境も選択します。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、対象のバッチパイプラインをクリックして、設定ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルのナビゲーションウィンドウで、[入力] を選択します。リストから [DM] コンポーネントを見つけて、キャンバスにドラッグします。
DM 入力コンポーネントカードのアイコンをクリックして、[DM] [入力設定] ダイアログボックスを開きます。

[DM 入力設定] ダイアログボックスで、パラメーターを設定します。

パラメーター	説明
[ステップ名]	DM 入力コンポーネントの名前です。Dataphin は自動的にステップ名を生成します。必要に応じて名前を変更することもできます。命名規則は次のとおりです：名前には、中国語文字、英字、アンダースコア (_)、数字のみ使用できます。名前の長さは 64 文字を超えることはできません。
[データソース]	データソースのドロップダウンリストには、現在の Dataphin プロジェクト内のすべての DM データソースが表示されます。これには、リードスルー権限があるデータソースとないデータソースの両方が含まれます。アイコンをクリックすると、現在のデータソース名をコピーできます。リードスルー権限がないデータソースの場合は、データソースの横にある [リクエスト] をクリックして権限を申請します。詳細については、「データソース権限の申請、更新、返却」をご参照ください。 DM データソースがない場合は、[データソースの作成] をクリックして作成します。詳細については、「DM データソースの作成」をご参照ください。
[ソーステーブル数]	必要に応じて、入力として同じスキーマを持つ単一テーブルまたは複数テーブルを選択します。ソーステーブル数は [単一テーブル] または [複数テーブル] にすることができます。 [単一テーブル]：このオプションを使用して、1 つのソーステーブルから 1 つのターゲットテーブルにデータを同期します。 [複数テーブル]：このオプションを使用して、複数のソーステーブルから同じターゲットテーブルにデータを同期します。複数テーブルのデータが単一のデータテーブルに書き込まれる場合、UNION アルゴリズムが使用されます。
[テーブル一致メソッド]	[一般ルール] または [データベース正規表現] を選択します。説明このパラメーターは、[ソーステーブル数] を [複数テーブル] に設定した場合にのみ使用できます。
テーブル	ソーステーブルを選択します： [ソーステーブル数] を [単一テーブル] に設定した場合、キーワードを入力してテーブルを検索するか、正確なテーブル名を入力して [完全一致] をクリックします。テーブルを選択すると、システムが自動的にそのステータスを確認します。アイコンをクリックすると、選択したテーブルの名前をコピーできます。 [ソーステーブル数] を [複数テーブル] に設定した場合、選択したテーブル一致メソッドに基づいて式を入力し、テーブルを追加します。テーブル一致メソッドで [一般ルール] を選択した場合：入力ボックスにテーブル式を入力して、同じ構造のテーブルをフィルタリングします。システムは、列挙、正規表現のようなパターン、および両方の組み合わせをサポートしています。例：`table_[001-100];table_102;`。テーブル一致メソッドで [データベース正規表現] を選択した場合：入力ボックスに、現在のデータベースがサポートする正規表現を入力します。システムは、この式に基づいてターゲットデータベース内のテーブルを照合します。ランタイム時に、ノードはデータベース正規表現を使用して、新しい範囲のテーブルをリアルタイムで照合して同期します。式を入力した後、[完全一致] をクリックして、[一致詳細の確認] ダイアログボックスで一致したテーブルのリストを表示します。
[分割キー] (任意)	システムは、設定された分割キーに基づいてデータをパーティション分割します。このパラメーターを同時実行数パラメーターと組み合わせて使用することで、同時読み取りを有効にできます。ソーステーブルの列を分割キーとして使用できます。高いパフォーマンスを確保するために、プライマリキーまたはインデックス付き列を分割キーとして使用してください。重要日付と時刻の型を選択した場合、システムは最大値と最小値を識別し、合計時間範囲と同時実行数に基づいて大まかな分割を実行します。分割が均等になることは保証されません。
[バッチ読み取りサイズ] (任意)	一度に読み取るレコード数です。ソースデータベースから読み取る際に、一度に 1 レコードずつ読み取るのではなく、1024 レコードなどの特定のバッチ読み取りサイズを設定します。これにより、データソースとのやり取りが減り、I/O 効率が向上し、ネットワーク遅延が低減します。
[入力フィルター] (任意)	入力フィールドのフィルター情報を入力します。例：`ds=${bizdate}`。[入力フィルター] は、次のシナリオに適用できます：データの固定部分。パラメーターベースのフィルタリング。
[出力フィールド]	[出力フィールド] セクションには、選択したテーブルからフィルター条件に一致するすべてのフィールドが表示されます。次の操作がサポートされています：フィールド管理：特定のフィールドをダウンストリームコンポーネントに出力する必要がない場合は、それらを削除します：フィールドを個別に削除する場合：少数のフィールドを削除するには、[操作] 列のアイコンをクリックして、不要なフィールドを削除します。フィールドの一括削除：多くのフィールドを削除するには、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで、複数のフィールドを選択し、左矢印アイコンをクリックして選択したフィールドを未選択リストに移動し、[確認] をクリックします。バッチ追加：[バッチ追加] をクリックします。JSON、TEXT、または DDL フォーマットを使用して、フィールドを一括で設定できます。説明フィールドを一括で追加して [確認] をクリックすると、既存のフィールド設定は上書きされます。 JSON フォーマットを使用して一括で設定する場合の例： `// 例： [{ "index": 1, "name": "id", "type": "int(10)", "mapType": "Long", "comment": "comment1" }, { "index": 2, "name": "user_name", "type": "varchar(255)", "mapType": "String", "comment": "comment2" }]` 説明 `index` パラメーターはオブジェクトの列番号を指定します。`name` パラメーターはフィールド名を定義し、`type` パラメーターはインポート後のフィールドタイプを定義します。たとえば、`"index":3,"name":"user_id","type":"String"` は、ファイルから 4 番目の列がインポートされ、フィールド名が 'user_id'、フィールドタイプが 'String' であることを示します。 TEXT フォーマットを使用して一括で設定する場合の例： `// 例： 1,id,int(10),Long,comment1 2,user_name,varchar(255),Long,comment2` 行区切り文字は、各フィールドの情報を区切ります。デフォルトの区切り文字は改行 (\n) です。セミコロン (;) やピリオド (.) も使用できます。列区切り文字は、フィールド名とフィールドタイプを区切ります。デフォルト値はカンマ (,) です。`','` を列区切り文字として使用できます。フィールドタイプは任意で、デフォルトは `','` です。 DDL フォーマットを使用して一括で設定する場合の例： `CREATE TABLE tablename ( user_id serial, username VARCHAR(50), password VARCHAR(50), email VARCHAR (255), created_on TIMESTAMP, );` 出力フィールドの追加：[+出力フィールドの追加] をクリックします。プロンプトに従って、[列]、[型]、[コメント] を入力し、[マッピングタイプ] を選択します。現在の行を設定した後、アイコンをクリックして保存します。

[確認] をクリックして、DM 入力コンポーネントのプロパティ設定を完了します。