StarRocks 入力コンポーネントは、StarRocks データソースからデータを取得します。StarRocks データソースから別のデータソースへデータを同期するには、まず入力コンポーネントが読み取る StarRocks データソースを構成します。その後、同期先のデータソースを構成します。本トピックでは、StarRocks 入力コンポーネントの設定方法について説明します。
前提条件
StarRocks データソースを作成します。詳細については、「StarRocks データソースの作成」をご参照ください。
StarRocks 入力コンポーネントのプロパティを構成するアカウントには、データソースに対するリードスルー権限が必要です。該当の権限がない場合は、権限の付与を依頼してください。詳細については、「データソース権限の依頼・更新・返却」をご参照ください。
操作手順
Dataphin のホームページで、上部メニューバーから [開発] > [データ統合] を選択します。
統合ページで、上部メニューバーから [プロジェクト] を選択します。プロジェクトが Dev-Prod モードの場合は、環境を選択します。
左側ナビゲーションウィンドウで、[オフライン統合] をクリックします。[オフライン統合] の一覧から、開発対象の [オフラインパイプライン] をクリックして、その構成ページを開きます。
ページ右上隅の [コンポーネントライブラリ] をクリックし、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側ナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネント一覧から [StarRocks] コンポーネントを探し、キャンバスにドラッグします。
StarRocks 入力コンポーネントのカードにある
アイコンをクリックし、[StarRocks 入力構成] ダイアログボックスを開きます。[StarRocks 入力構成] ダイアログボックスで、以下のパラメーターを構成します。
パラメーター
説明
[ステップ名]
StarRocks 入力コンポーネントの名前です。Dataphin が自動的にステップ名を生成しますが、必要に応じて変更可能です。命名規則は以下のとおりです:
中国語文字、英字、アンダースコア (_ )、数字のみ使用可能です。
最大 64 文字までです。
[データソース]
データソースのドロップダウンリストには、Dataphin 内のすべての StarRocks データソース(リードスルー権限を持つものおよび持たないもの)が表示されます。現在のデータソース名をコピーするには、
アイコンをクリックします。リードスルー権限を持たないデータソースについては、データソース横の [依頼] をクリックして、リードスルー権限の付与を依頼します。具体的な操作については、「データソース権限の依頼」をご参照ください。
StarRocks データソースが存在しない場合は、[データソースの作成] をクリックして新規作成します。詳細については、「StarRocks データソースの作成」をご参照ください。
[ソーステーブル数]
ソーステーブルのボリュームを選択します。選択肢は [単一テーブル] および [複数テーブル] です。
[単一テーブル]:単一テーブルからビジネスデータを単一のターゲットテーブルへ同期します。
[複数テーブル]:複数のテーブルから取得したビジネスデータを同一の送信先テーブルへ同期するシナリオに適用されます。複数テーブルから同一のデータテーブルへ書き込む場合、UNION アルゴリズムが使用されます。
[テーブル照合方法]
[汎用ルール] または [データベース正規表現] を選択できます。
説明このオプションは、**[ソーステーブル数]** を **[複数テーブル]** に設定した場合のみ構成可能です。
[テーブル]
ソーステーブルを選択します:
**[ソーステーブル数]** が **[非パーティションテーブル]** の場合:テーブル名のキーワードを入力して検索するか、正確なテーブル名を入力して [厳密検索] をクリックします。テーブルを選択すると、システムが自動的にテーブルの状態を検出します。選択したテーブル名をコピーするには、
アイコンをクリックします。**[ソーステーブル数]** が **[複数テーブル]** の場合:テーブル照合方法に基づいて異なる式を入力してテーブルを追加できます。
**[テーブル照合方法]** が **[汎用ルール]** の場合:入力ボックスにテーブル式を入力し、**同一構造のテーブル** をフィルター処理します。システムは列挙形式、正規表現風形式、および混合形式をサポートします。例:
table_[001-100];table_102;。**[テーブル照合方法]** が **[データベース正規表現]** の場合:入力ボックスに、現在のデータベースでサポートされる正規表現を入力します。システムは、この正規表現に基づいて送信先データベース内のテーブルを照合します。ランタイム中、タスクはデータベース正規表現に基づき、新しいテーブル範囲を即座に照合して同期します。
式を入力後、[厳密検索] をクリックして、[照合詳細の確認] ダイアログボックスに一致したテーブルの一覧を表示します。
[シャードキー](任意)
ソースデータテーブル内の **整数型** のカラムをシャードキーとして使用できます。シャードキーには、**プライマリキー** または **インデックス付きカラム** を使用することを推奨します。データ読み取り時に、構成されたシャードキーのフィールドに基づいてデータパーティションが実行され、並列読み取りが可能になります。これにより、データ同期効率が向上します。
[バッチ読み取り件数](任意)
一度に読み取るデータレコード数です。ソースデータベースからデータを読み取る際、1 件ずつではなく、特定のバッチ読み取り件数(例:1024 件)を設定できます。これにより、データソースとのやり取り回数が削減され、I/O 効率が向上し、ネットワーク遅延が低下します。
[入力フィルター](任意)
入力フィールド向けのフィルター情報を入力します(例:
ds=${bizdate})。**[入力フィルター]** は、以下の 2 つのシナリオに適用されます:固定のデータサブセット。
パラメーターによるフィルタリング。
[出力フィールド]
出力フィールド領域には、選択したテーブルおよびフィルター条件に一致したすべてのフィールドが表示されます。新しい出力フィールドを作成したり、一括で追加したりできます。一部のフィールドを後続コンポーネントに出力しない場合は、削除可能です。
バッチ追加: [バッチ追加] をクリックすると、JSON、TEXT、DDL フォーマットでバッチ構成を行うことができます。
説明一括追加が完了後、**[OK]** をクリックすると、構成済みのフィールド情報が 上書きされます。
JSON 形式で一括構成する例:
// 例: [{ "name": "user_id", "type": "String" }, { "name": "user_name", "type": "String" }]説明「name」はインポートするフィールド名、「type」はインポート後のフィールド型を示します。たとえば、
"name":"user_id","type":"String"は、user_id という名前のフィールドをインポートし、そのフィールド型を String に設定することを意味します。TEXT 形式で一括構成する例:
// 例: user_id,String user_name,String行区切り文字は各フィールドの情報を区切ります。デフォルトは改行 (\\n) ですが、改行 (\\n)、セミコロン (;)、ピリオド (.) をサポートします。
列区切り文字はフィールド名とフィールド型を区切ります。デフォルトはカンマ (,) です。
DDL 形式で一括構成する例:
CREATE TABLE tablename ( id INT PRIMARY KEY, name VARCHAR(50), age INT );
[出力フィールドの作成]: [+出力フィールドの作成] をクリックし、画面上の指示に従って [カラム] を入力し、[型] を選択します。
フィールドを個別に削除: 少数のフィールドを削除するには、出力フィールドリストで対象フィールドの [操作] 列にある
アイコンをクリックし、不要なフィールドを削除します。説明コンピュートエンジンが StarRocks の場合、StarRocks 入力コンポーネントの出力フィールドでは、フィールドの **分類およびグレーディング** を表示できます。StarRocks 以外のコンピュートエンジンでは、この機能はサポートされません。
[フィールドの一括削除]:多数のフィールドを削除する場合は、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで複数のフィールドを選択し、
左矢印アイコンをクリックして選択済みの入力フィールドを未選択の入力フィールドに移動し、[確認] をクリックしてフィールドの一括削除を完了します。
[確認] をクリックし、[StarRocks 入力コンポーネント] のプロパティ構成を完了します。