Doris 入力コンポーネントを構成すると、Data Integration およびデータ開発のために Doris データソースから Dataphin にデータを読み取ることができます。このトピックでは、Doris 入力コンポーネントを構成する方法について説明します。
前提条件
Doris データソースが追加されていること。詳細については、「Doris データソースを作成する」をご参照ください。
Doris 入力コンポーネントのプロパティを構成するアカウントは、データソースに対するリードスルー権限を持っている必要があります。権限がない場合は、データソース権限をリクエストする必要があります。詳細については、「データソース権限をリクエストする」をご参照ください。
手順
Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。
統合ページの上部ナビゲーションバーで、プロジェクト を選択します(開発 - 本番モードでは、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発するオフラインパイプラインをクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントリストで [Doris] コンポーネントを見つけ、キャンバスにドラッグします。
Doris 入力コンポーネントカードの
アイコンをクリックして、[Doris] [入力構成] ダイアログボックスを開きます。[Doris 入力構成] ダイアログボックスで、パラメーターを構成します。
パラメーター
説明
ステップ名
Doris 入力コンポーネントの名前。Dataphin は自動的にステップ名を生成します。ビジネスシナリオに基づいて変更することもできます。名前は次の要件を満たしている必要があります。
漢字、英字、アンダースコア(_)、数字のみ使用できます。
長さは 64 文字以内である必要があります。
データソース
データソースドロップダウンリストには、現在の Dataphin インスタンスにあるすべての Doris データソースが表示されます。これには、リードスルー権限を持っているデータソースと、リードスルー権限を持っていないデータソースの両方が含まれます。
アイコンをクリックして、現在のデータソース名をコピーします。リードスルー権限を持っていないデータソースの場合、データソースの横にある [リクエスト] をクリックして、対応するデータソースの読み取り権限をリクエストできます。データソースの読み取り権限をリクエストする方法の詳細については、「データソース権限をリクエストする」をご参照ください。
Doris データソースがない場合は、[データソースを作成] をクリックしてデータソースを作成します。詳細については、「Doris データソースを作成する」をご参照ください。
ソーステーブル数量
実際のシナリオ要件に基づいて、単一のテーブル、または同じ構造を持つ複数のテーブルを入力として選択します。ソーステーブル数量には、[単一テーブル] と [複数テーブル] が含まれます。
[単一テーブル]:このオプションは、1 つのテーブルのビジネスデータを 1 つの宛先テーブルに同期するシナリオに適用されます。
[複数テーブル]:このオプションは、複数のテーブルのビジネスデータを同じ宛先テーブルに同期するシナリオに適用されます。複数のテーブルのデータが同じデータテーブルに書き込まれる場合、UNION アルゴリズムが使用されます。
テーブル
ソーステーブルを選択します。
ソーステーブル数量 で [単一テーブル] を選択した場合は、キーワードを入力してテーブルを検索するか、正確なテーブル名を入力して [完全一致] をクリックします。テーブルを選択すると、システムは自動的にテーブルの状態をチェックします。
アイコンをクリックして、選択したテーブルの名前をコピーします。ソーステーブル数量 で [複数テーブル] を選択した場合は、次の操作を実行してテーブルを追加します。
入力ボックスにテーブル式を入力して、同じ構造のテーブルをフィルタリングします。
システムは、列挙、正規表現、および両方の組み合わせをサポートしています。例:
table_[001-100];table_102。[完全一致] をクリックします。[一致の詳細を確認] ダイアログボックスで、一致したテーブルのリストを表示します。
[OK] をクリックします。
シャードキー
ソースデータテーブルの整数型の列をシャードキーとして使用できます。プライマリキーまたはインデックスを持つ列をシャードキーとして使用することをお勧めします。データを読み取るときに、システムは構成されたシャードキーフィールドに基づいてデータをシャーディングして同時読み取りを実装し、データ同期の効率を向上させることができます。
バッチ読み取りカウント
一度に読み取るレコード数。ソースデータベースからデータを読み取るときに、レコードを 1 つずつ読み取る代わりに、特定のバッチ読み取り数(1,024 レコードなど)を構成できます。これにより、データソースとの対話の回数が減り、I/O 効率が向上し、ネットワークレイテンシが減少します。
入力フィルター
データ抽出のフィルタリング条件を構成します。構成手順は次のとおりです。
静的な値を構成して対応するデータを抽出します。例:
ds=20210101。変数パラメーターを構成して、データの特定の部分を抽出します。例:
ds=${bizdate}。
出力フィールド
出力フィールドセクションには、選択したテーブルとフィルタリング条件に一致するすべてのフィールドが表示されます。次の操作を実行できます。
フィールド管理:特定のフィールドをダウンストリームコンポーネントに出力する必要がない場合は、これらのフィールドを削除できます。
単一フィールドの削除:少数のフィールドを削除する必要がある場合は、操作列の
アイコンをクリックして不要なフィールドを削除できます。複数フィールドのバッチ削除:多数のフィールドを削除する必要がある場合は、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで、複数のフィールドを選択し、
左矢印アイコンをクリックして選択した入力フィールドを未選択の入力フィールドに移動してから、[OK] をクリックしてフィールドのバッチ削除を完了します。
バッチ追加:[バッチ追加]. をクリックして、JSON 形式、TEXT 形式、または DDL 形式のフィールドをバッチで構成します。
説明バッチ追加を完了して [OK] をクリックすると、システムは構成済みのフィールド情報を上書きします。
JSON 形式でフィールドを構成します。例:
// 例: [{ "index": 1, "name": "id", "type": "int(10)", "mapType": "Long", "comment": "コメント 1" }, { "index": 2, "name": "user_name", "type": "varchar(255)", "mapType": "String", "comment": "コメント 2" }]説明index は指定されたオブジェクトの列番号、name はインポート後のフィールド名、type はインポート後のフィールドタイプを示します。たとえば、
"index":3,"name":"user_id","type":"String"は、ファイルの 4 番目の列がインポートされ、フィールド名が user_id で、フィールドタイプが String であることを示します。TEXT 形式でフィールドを構成します。例:
// 例: 1,id,int(10),Long,コメント 1 2,user_name,varchar(255),Long,コメント 2行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行(\n)です。改行(\n)、セミコロン(;)、ピリオド(.)がサポートされています。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ (,) です。システムは
','をサポートしています。フィールドタイプは省略できます。デフォルトは','です。
DDL 形式でフィールドを構成します。例:
CREATE TABLE tablename ( user_id serial, username VARCHAR(50), password VARCHAR(50), email VARCHAR (255), created_on TIMESTAMP, );
出力フィールドの作成:[+ 出力フィールドを作成] をクリックし、[列]、[タイプ]、[説明] に入力し、プロンプトに従って [マッピングタイプ] を選択します。現在の行の構成が完了したら、
アイコンをクリックして保存します。
[OK] をクリックして、Doris 入力コンポーネントのプロパティ構成を完了します。