Doris 入力コンポーネントを設定すると、Doris データソースから Dataphin にデータを読み込み、Data Integration とデータ開発を行うことができます。このトピックでは、Doris 入力コンポーネントの設定方法について説明します。
前提条件
Doris データソースが作成されていること。詳細については、「Doris データソースの作成」をご参照ください。
Doris 入力コンポーネントの設定に使用するアカウントには、データソースに対する同期読み取り権限が必要です。権限が付与されていない場合は、リクエストしてください。詳細については、「データソース権限のリクエスト」をご参照ください。
操作手順
Dataphin のホームページで、トップメニューバーから [開発] > [Data Integration] を選択します。
統合ページで、トップメニューバーから [プロジェクト] を選択します。Dev-Prod モードの場合は、環境も選択します。
左側のナビゲーションウィンドウで、[オフライン統合] をクリックします。次に、[オフライン統合] リストで、開発するオフラインパイプラインをクリックして、その設定ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントのリストで [Doris] コンポーネントを見つけ、キャンバスにドラッグします。
Doris 入力コンポーネントのカード上の
アイコンをクリックして、[Doris] [入力設定] ダイアログボックスを開きます。[Doris 入力設定] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
ステップ名
Doris 入力コンポーネントの名前です。Dataphin は自動的にステップ名を生成しますが、必要に応じて名前を変更することもできます。命名規則は次のとおりです:
名前に使用できるのは、漢字、英字、アンダースコア (_)、数字のみです。
名前の長さは 64 文字以内にする必要があります。
[データソース]
ドロップダウンリストには、現在の Dataphin プロジェクト内のすべての Doris データソースが表示されます。これには、同期読み取り権限があるデータソースとないデータソースの両方が含まれます。
アイコンをクリックすると、現在のデータソース名をコピーできます。同期読み取り権限がないデータソースの場合は、データソースの横にある [リクエスト] をクリックして権限をリクエストします。詳細については、「データソース権限のリクエスト」をご参照ください。
Doris データソースがない場合は、[データソースの作成] をクリックして作成します。詳細については、「Doris データソースの作成」をご参照ください。
[ソーステーブル数]
必要に応じて、入力として同じスキーマを持つ 1 つまたは複数のテーブルを選択します。オプションは [単一テーブル] と [複数テーブル] です:
[単一テーブル]:このオプションを使用して、1 つのテーブルから単一のターゲットテーブルにデータを同期します。
[複数テーブル]:このオプションを使用して、複数のテーブルから単一のターゲットテーブルにデータを同期します。複数のテーブルのデータが 1 つのターゲットテーブルに書き込まれる場合、UNION アルゴリズムが使用されます。
[テーブル一致モード]
[一般ルール] または [データベース正規表現] を選択できます。
説明このパラメーターは、[ソーステーブル数] が [複数テーブル] に設定されている場合にのみ使用できます。
テーブル
ソーステーブルを選択します:
「ソーステーブル数」を「単一テーブル」に設定した場合、検索するテーブルのキーワードを入力するか、正確なテーブル名を入力して [完全一致] をクリックします。テーブルを選択すると、システムが自動的にそのステータスを確認します。選択したテーブルの名前をコピーするには、
アイコンをクリックします。[ソーステーブル数] を [複数テーブル] に設定した場合は、選択したテーブル一致モードに基づいてテーブルを追加するための式を入力します。
[テーブル一致モード] を [一般ルール] に設定した場合は、入力ボックスに式を入力して、同じスキーマを持つテーブルをフィルターします。システムは、列挙、正規表現に似たパターン、およびその両方の組み合わせをサポートしています。例:
table_[001-100];table_102;。テーブル一致メソッドとして [データベース正規表現] を選択します。入力ボックスに、ターゲットデータベースがサポートする正規表現を入力します。システムは、この正規表現に基づいてターゲットデータベース内のテーブルを照合します。同期タスクのランタイム中に、システムはデータベース正規表現に従って、新しく一致したテーブルを動的に照合および同期します。
式を入力した後、[完全一致] をクリックして、[一致詳細の確認] ダイアログボックスで一致したテーブルの一覧を表示します。
分割キー
ソーステーブルの整数型の列を分割キーとして使用できます。プライマリキーまたはインデックス付き列を分割キーとして使用してください。データ読み取り時に、システムは設定された分割キーに基づいてデータをパーティション分割します。これにより、同時読み取りが可能になり、データ同期の効率が向上します。
バッチ読み取りサイズ
一度に読み取るレコード数です。ソースデータベースから読み取る際に、1024 レコードなどの特定のバッチサイズを設定できます。一度に 1 レコードずつではなくバッチで読み取ることで、データソースとのやり取りの回数が減り、I/O 効率が向上し、ネットワーク遅延が低減します。
入力フィルター
特定のデータを抽出するためのフィルター条件です。設定は次のとおりです:
静的な値を使用して、対応するデータを抽出します。例:
ds=20210101。変数を使用して、データのサブセットを抽出します。例:
ds=${bizdate}。
[出力フィールド]
[出力フィールド] セクションには、選択したテーブルからフィルター条件に一致するすべてのフィールドが表示されます。次の操作を実行できます:
フィールドの管理:特定のフィールドを下流コンポーネントに出力する必要がない場合は、削除できます:
単一フィールドの削除:少数のフィールドを削除するには、[操作] 列の
アイコンをクリックして、不要なフィールドを削除します。フィールドの一括削除: 多くのフィールドを削除するには、[フィールドの管理] をクリックします。[フィールドの管理] ダイアログボックスで、複数のフィールドを選択し、
左シフトアイコンをクリックして選択した入力フィールドを未選択リストに移動します。次に、[OK] をクリックしてフィールドを一括で削除します。
バッチ追加:[バッチ追加] をクリックすると、JSON、TEXT、または DDL フォーマットを使用して、フィールドをバッチで設定できます。
説明フィールドを一括で追加して [OK] をクリックすると、既存のフィールド設定は上書きされます。
JSON フォーマットで設定する場合の例:
// 例: [{ "index": 1, "name": "id", "type": "int(10)", "mapType": "Long", "comment": "comment1" }, { "index": 2, "name": "user_name", "type": "varchar(255)", "mapType": "String", "comment": "comment2" }]説明`index` はオブジェクトの列番号を指定します。`name` はインポート後のフィールド名を指定します。`type` はインポート後のフィールドタイプを指定します。たとえば、
"index":3,"name":"user_id","type":"String"は、ファイルの 4 列目がフィールド名 `user_id`、フィールドタイプ `String` でインポートされることを意味します。TEXT フォーマットで設定する場合の例:
// 例: 1,id,int(10),Long,comment1 2,user_name,varchar(255),Long,comment2行区切り文字は、各フィールドの情報を区切ります。デフォルトのデリミタは改行 (\n) です。セミコロン (;) とピリオド (.) もサポートされています。
列区切り文字は、フィールド名とフィールドタイプを区切ります。デフォルトは半角カンマ (,) です。
','がサポートされています。フィールドタイプは省略可能で、デフォルトのデリミタは','です。
DDL フォーマットで設定する場合の例:
CREATE TABLE tablename ( user_id serial, username VARCHAR(50), password VARCHAR(50), email VARCHAR (255), created_on TIMESTAMP, );
出力フィールドの追加: [+ 出力フィールドの追加] をクリックし、プロンプトに従って [列]、[タイプ]、および [コメント] を入力し、[マッピングタイプ] を選択します。現在の行を設定したら、保存するには
アイコンをクリックします。
[確認] をクリックして、Doris 入力コンポーネントの設定を保存します。