Doris 出力コンポーネントを構成することにより、外部データベースから読み取ったデータを Doris に書き込んだり、ビッグデータプラットフォームに接続されているストレージシステムから Doris にデータをコピーしてプッシュし、データ統合と再処理を行うことができます。このトピックでは、Doris 出力コンポーネントを構成する方法について説明します。
前提条件
Doris データソースが追加されていること。詳細については、「Doris データソースを作成する」をご参照ください。
Doris 出力コンポーネントのプロパティを構成するために使用するアカウントは、データソースに対するライトスルー権限を持っている必要があります。権限がない場合は、データソース権限をリクエストする必要があります。詳細については、「データソース権限をリクエストする」をご参照ください。
手順
Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。
統合ページの上部ナビゲーションバーで、[プロジェクト] を選択します(開発 - 本番モードでは、環境を選択する必要があります)。
左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン]オフライン パイプライン リストで、開発するオフラインパイプラインをクリックして、構成ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[出力] を選択します。右側の出力コンポーネントリストで [Doris] コンポーネントを見つけ、キャンバスにドラッグします。
ターゲットの入力、変換、またはフローコンポーネントの
アイコンをクリックしてドラッグし、現在の Doris 出力コンポーネントに接続します。Doris 出力コンポーネントカードの
アイコンをクリックして、[Doris 出力構成] ダイアログボックスを開きます。
[Doris 出力構成] ダイアログボックスで、次の表に従ってパラメーターを構成します。
パラメーター
説明
[基本設定]
[ステップ名]
Doris 出力コンポーネントの名前。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに基づいて変更できます。名前は次の要件を満たしている必要があります。
中国語、英字、アンダースコア(_)、数字のみ使用できます。
名前は最大 64 文字までです。
[データソース]
データソースのドロップダウンリストには、ライトスルー権限を持っているデータソースと持っていないデータソースを含む、すべての Doris タイプのデータソースが表示されます。
アイコンをクリックして、現在のデータソース名をコピーします。ライトスルー権限を持っていないデータソースの場合、データソースの後の [リクエスト] をクリックして、ライトスルー権限をリクエストできます。詳細については、「データソース権限をリクエストする」をご参照ください。
Doris タイプのデータソースがない場合は、[データソースの作成] をクリックして作成します。詳細については、「Doris データソースを作成する」をご参照ください。
[テーブル]
出力データの出力先テーブルを選択します。キーワードを入力してテーブルを検索するか、正確なテーブル名を入力して [完全一致] をクリックします。テーブルを選択すると、システムは自動的にテーブルの状態を確認します。
アイコンをクリックして、現在選択されているテーブルの名前をコピーします。Doris データソースにデータ同期のターゲットテーブルがない場合は、ワンクリックテーブル作成機能を使用して、ターゲットテーブルをすばやく生成できます。ワンクリックでテーブルを作成するには、次の手順を実行します。
[ワンクリックでテーブルを作成] をクリックします。Dataphin は、ターゲットテーブル名(デフォルトはソーステーブル名)、フィールドタイプ(最初は Dataphin フィールドに基づいて変換されます)、およびその他の情報を含む、ターゲットテーブルを作成するためのコードを自動的に一致させます。
ビジネス要件に応じて、ターゲットテーブルを作成するための SQL スクリプトを変更してから、[作成] をクリックします。
ターゲットテーブルが正常に作成されると、Dataphin は新しく作成されたテーブルを自動的に出力データの出力先テーブルとして設定します。ワンクリックテーブル作成機能は、開発環境と本番環境でデータ同期のターゲットテーブルを作成するために使用されます。Dataphin はデフォルトで本番環境のテーブル作成を選択します。本番環境に同じ名前と構造のテーブルが既に存在する場合は、本番環境のテーブル作成を選択する必要はありません。
説明開発環境または本番環境に同じ名前のテーブルが存在する場合、[作成] をクリックすると Dataphin はエラーを報告します。
一致する項目がない場合でも、手動で入力したテーブル名に基づいて統合を実行できます。
[データ形式]
[CSV] または [JSON] を選択できます。
[CSV] を選択した場合は、[CSV インポート列区切り文字] と [CSV インポート行区切り文字] も構成する必要があります。
[CSV インポート列区切り文字](オプション)
StreamLoad CSV インポートを使用する場合、ここで CSV インポート列区切り文字を構成できます。デフォルトは
_@dp@_です。デフォルト値を使用する場合は、ここで明示的に指定しないでください。データに_@dp@_が含まれている場合は、他の文字を区切り文字としてカスタマイズして使用する必要があります。[CSV インポート行区切り文字](オプション)
StreamLoad CSV インポートを使用する場合、ここで CSV インポート行区切り文字を構成できます。デフォルトは
_#dp#_です。デフォルト値を使用する場合は、ここで明示的に指定しないでください。データに_#dp#_が含まれている場合は、他の文字を区切り文字としてカスタマイズして使用する必要があります。バッチ書き込みデータサイズ(オプション)
一度に書き込むデータのサイズ。[バッチ書き込み数] も設定できます。システムは、これらの 2 つの制限のいずれかに達するとデータを書き込みます。デフォルトは 32M です。
[バッチ書き込み数](オプション)
デフォルトは 2048 レコードです。データを同期する場合、システムは [バッチ書き込み数] と [バッチ書き込みデータサイズ] を含むパラメーターを使用してバッチ書き込み戦略を使用します。
累積データが設定された制限(つまり、バッチ書き込みデータサイズまたは数の制限)のいずれかに達すると、システムはデータのバッチがいっぱいになったと見なし、このバッチのデータをすぐに 1 回の操作で宛先に書き込みます。
バッチ書き込みデータサイズを 32MB に設定することをお勧めします。バッチ挿入数の制限については、バッチ書き込みの利点を最大限に活用するために、1 レコードの実際のサイズに基づいて柔軟に調整できます。たとえば、1 レコードのサイズが約 1KB の場合、バッチ挿入バイトサイズを 16MB に設定し、この条件を考慮して、バッチ挿入数を 16MB を 1 レコードのサイズ 1KB で割った結果よりも大きい値(つまり、16384 レコードよりも大きい値)、たとえば 20000 レコードに設定します。この構成では、システムはバッチ挿入バイトサイズに基づいてバッチ書き込みをトリガーし、累積データが 16MB に達するたびに書き込み操作を実行します。
準備ステートメント(オプション)
データインポートの前にデータベースで実行される SQL スクリプト。
たとえば、継続的なサービスの可用性を確保するために、現在のステップでデータを書き込む前に、まずターゲットテーブル Target_A を作成し、次に Target_A への書き込みを実行します。現在のステップでデータの書き込みが完了した後、継続的にサービスを提供するテーブル Service_B の名前を Temp_C に変更し、次にテーブル Target_A の名前を Service_B に変更し、最後に Temp_C を削除します。
終了ステートメント(オプション)
データインポート後にデータベースで実行される SQL スクリプト。
[フィールドマッピング]
入力フィールド
上流コンポーネントの出力に基づいて入力フィールドを表示します。
出力フィールド
出力フィールドを表示します。次の操作を実行できます。
フィールド管理:[フィールド管理] をクリックして、出力フィールドを選択します。

アイコンをクリックして、[選択済みの入力フィールド] を [選択されていない入力フィールド] に移動します。
アイコンをクリックして、[選択されていない入力フィールド] を [選択済みの入力フィールド] に移動します。
一括追加:[一括追加] をクリックして、JSON、TEXT 形式、および DDL 形式のバッチ構成をサポートします。
JSON 形式のバッチ構成。例:
// 例: [{ "name": "user_id", "type": "String" }, { "name": "user_name", "type": "String" }]説明name はインポートされたフィールド名を表し、type はインポート後のフィールドタイプを表します。たとえば、
"name":"user_id","type":"String"は、user_id という名前のフィールドをインポートし、そのフィールドタイプを String に設定することを意味します。TEXT 形式のバッチ構成。例:
// 例: user_id,String user_name,String行区切り文字は、各フィールドの情報を区切るために使用されます。デフォルトは改行(\n)で、改行(\n)、セミコロン(;)、ピリオド(.)をサポートしています。
列区切り文字は、フィールド名とフィールドタイプを区切るために使用されます。デフォルトはカンマ(,)です。
DDL 形式のバッチ構成。例:
CREATE TABLE tablename ( id INT PRIMARY KEY, name VARCHAR(50), age INT );
出力フィールドの作成:[+ 出力フィールドの作成] をクリックし、プロンプトに従って [列] に入力し、[タイプ] を選択します。現在の行の構成が完了したら、
アイコンをクリックして保存します。
[マッピング]
上流の入力フィールドとターゲットテーブルのフィールドに基づいて、フィールドマッピングを手動で選択できます。[クイックマッピング] には、[同じ行のマッピング] と [同じ名前のマッピング] が含まれます。
同じ名前のマッピング:同じ名前のフィールドをマッピングします。
同じ行のマッピング:ソーステーブルとターゲットテーブルのフィールド名が一致しないが、対応する行のデータをマッピングする必要がある場合。同じ行のフィールドのみをマッピングします。
[OK] をクリックして、[Doris 出力コンポーネント] のプロパティ構成を完了します。