StarRocks 入力コンポーネントによる高速データ同期の有効化 - Dataphin

StarRocks 入力コンポーネントは、StarRocks データソースからデータを取得します。StarRocks データソースから別のデータソースへデータを同期するには、まず入力コンポーネントが読み取る StarRocks データソースを構成します。その後、同期先のデータソースを構成します。本トピックでは、StarRocks 入力コンポーネントの設定方法について説明します。

前提条件

StarRocks データソースを作成します。詳細については、「StarRocks データソースの作成」をご参照ください。
StarRocks 入力コンポーネントのプロパティを構成するアカウントには、データソースに対するリードスルー権限が必要です。該当の権限がない場合は、権限の付与を依頼してください。詳細については、「データソース権限の依頼・更新・返却」をご参照ください。

操作手順

Dataphin のホームページで、上部メニューバーから [開発] ＞ [データ統合] を選択します。
統合ページで、上部メニューバーから [プロジェクト] を選択します。プロジェクトが Dev-Prod モードの場合は、環境を選択します。
左側ナビゲーションウィンドウで、[オフライン統合] をクリックします。[オフライン統合] の一覧から、開発対象の [オフラインパイプライン] をクリックして、その構成ページを開きます。
ページ右上隅の [コンポーネントライブラリ] をクリックし、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側ナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネント一覧から [StarRocks] コンポーネントを探し、キャンバスにドラッグします。
StarRocks 入力コンポーネントのカードにあるアイコンをクリックし、[StarRocks 入力構成] ダイアログボックスを開きます。

[StarRocks 入力構成] ダイアログボックスで、以下のパラメーターを構成します。

パラメーター	説明
[ステップ名]	StarRocks 入力コンポーネントの名前です。Dataphin が自動的にステップ名を生成しますが、必要に応じて変更可能です。命名規則は以下のとおりです：中国語文字、英字、アンダースコア (_ )、数字のみ使用可能です。最大 64 文字までです。
[データソース]	データソースのドロップダウンリストには、Dataphin 内のすべての StarRocks データソース（リードスルー権限を持つものおよび持たないもの）が表示されます。現在のデータソース名をコピーするには、アイコンをクリックします。リードスルー権限を持たないデータソースについては、データソース横の [依頼] をクリックして、リードスルー権限の付与を依頼します。具体的な操作については、「データソース権限の依頼」をご参照ください。 StarRocks データソースが存在しない場合は、[データソースの作成] をクリックして新規作成します。詳細については、「StarRocks データソースの作成」をご参照ください。
[ソーステーブル数]	ソーステーブルのボリュームを選択します。選択肢は [単一テーブル] および [複数テーブル] です。 [単一テーブル]：単一テーブルからビジネスデータを単一のターゲットテーブルへ同期します。 [複数テーブル]：複数のテーブルから取得したビジネスデータを同一の送信先テーブルへ同期するシナリオに適用されます。複数テーブルから同一のデータテーブルへ書き込む場合、UNION アルゴリズムが使用されます。
[テーブル照合方法]	[汎用ルール] または [データベース正規表現] を選択できます。説明このオプションは、[ソーステーブル数] を [複数テーブル] に設定した場合のみ構成可能です。
[テーブル]	ソーステーブルを選択します： [ソーステーブル数] が [非パーティションテーブル] の場合：テーブル名のキーワードを入力して検索するか、正確なテーブル名を入力して [厳密検索] をクリックします。テーブルを選択すると、システムが自動的にテーブルの状態を検出します。選択したテーブル名をコピーするには、アイコンをクリックします。 [ソーステーブル数] が [複数テーブル] の場合：テーブル照合方法に基づいて異なる式を入力してテーブルを追加できます。 [テーブル照合方法] が [汎用ルール] の場合：入力ボックスにテーブル式を入力し、同一構造のテーブルをフィルター処理します。システムは列挙形式、正規表現風形式、および混合形式をサポートします。例： `table_[001-100];table_102;`。 [テーブル照合方法] が [データベース正規表現] の場合：入力ボックスに、現在のデータベースでサポートされる正規表現を入力します。システムは、この正規表現に基づいて送信先データベース内のテーブルを照合します。ランタイム中、タスクはデータベース正規表現に基づき、新しいテーブル範囲を即座に照合して同期します。式を入力後、[厳密検索] をクリックして、[照合詳細の確認] ダイアログボックスに一致したテーブルの一覧を表示します。
[シャードキー]（任意）	ソースデータテーブル内の整数型のカラムをシャードキーとして使用できます。シャードキーには、プライマリキーまたはインデックス付きカラムを使用することを推奨します。データ読み取り時に、構成されたシャードキーのフィールドに基づいてデータパーティションが実行され、並列読み取りが可能になります。これにより、データ同期効率が向上します。
[バッチ読み取り件数]（任意）	一度に読み取るデータレコード数です。ソースデータベースからデータを読み取る際、1 件ずつではなく、特定のバッチ読み取り件数（例：1024 件）を設定できます。これにより、データソースとのやり取り回数が削減され、I/O 効率が向上し、ネットワーク遅延が低下します。
[入力フィルター]（任意）	入力フィールド向けのフィルター情報を入力します（例：`ds=${bizdate}`）。[入力フィルター] は、以下の 2 つのシナリオに適用されます：固定のデータサブセット。パラメーターによるフィルタリング。
[出力フィールド]	出力フィールド領域には、選択したテーブルおよびフィルター条件に一致したすべてのフィールドが表示されます。新しい出力フィールドを作成したり、一括で追加したりできます。一部のフィールドを後続コンポーネントに出力しない場合は、削除可能です。バッチ追加: [バッチ追加] をクリックすると、JSON、TEXT、DDL フォーマットでバッチ構成を行うことができます。説明一括追加が完了後、[OK] をクリックすると、構成済みのフィールド情報が上書きされます。 JSON 形式で一括構成する例： `// 例: [{ "name": "user_id", "type": "String" }, { "name": "user_name", "type": "String" }]` 説明「name」はインポートするフィールド名、「type」はインポート後のフィールド型を示します。たとえば、`"name":"user_id","type":"String"` は、user_id という名前のフィールドをインポートし、そのフィールド型を String に設定することを意味します。 TEXT 形式で一括構成する例： `// 例: user_id,String user_name,String` 行区切り文字は各フィールドの情報を区切ります。デフォルトは改行 (\\n) ですが、改行 (\\n)、セミコロン (;)、ピリオド (.) をサポートします。列区切り文字はフィールド名とフィールド型を区切ります。デフォルトはカンマ (,) です。 DDL 形式で一括構成する例： `CREATE TABLE tablename ( id INT PRIMARY KEY, name VARCHAR(50), age INT );` [出力フィールドの作成]： [＋出力フィールドの作成] をクリックし、画面上の指示に従って [カラム] を入力し、[型] を選択します。フィールドを個別に削除: 少数のフィールドを削除するには、出力フィールドリストで対象フィールドの [操作] 列にあるアイコンをクリックし、不要なフィールドを削除します。説明コンピュートエンジンが StarRocks の場合、StarRocks 入力コンポーネントの出力フィールドでは、フィールドの分類およびグレーディングを表示できます。StarRocks 以外のコンピュートエンジンでは、この機能はサポートされません。 [フィールドの一括削除]：多数のフィールドを削除する場合は、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで複数のフィールドを選択し、左矢印アイコンをクリックして選択済みの入力フィールドを未選択の入力フィールドに移動し、[確認] をクリックしてフィールドの一括削除を完了します。

[確認] をクリックし、[StarRocks 入力コンポーネント] のプロパティ構成を完了します。