コンピュートエンジン出力コンポーネント経由で Lindorm にデータを書き込む - Dataphin

Lindorm (コンピュートエンジン) 出力コンポーネントは、外部データベースから Lindorm (コンピュートエンジン) にデータを書き込みます。また、ビッグデータプラットフォームに接続されたストレージシステムから Lindorm (コンピュートエンジン) へデータをコピーおよびプッシュし、データ統合や再処理を行うこともできます。本トピックでは、Lindorm (コンピュートエンジン) 出力コンポーネントの構成方法について説明します。

前提条件

Lindorm (コンピュートエンジン) データソースを作成済みである必要があります。詳細については、「Lindorm (コンピュートエンジン) データソースの作成」をご参照ください。
Lindorm (コンピュートエンジン) 出力コンポーネントのプロパティを構成するアカウントには、対象データソースに対するライトスルー権限が必要です。この権限がない場合は、データソースに対して権限をリクエストしてください。詳細については、「データソース権限のリクエスト」をご参照ください。

操作手順

Dataphin ホームページで、上部のメニューバーから [開発] > [データ統合] を選択します。
Data Integration ページの上部メニューバーで、[プロジェクト] を選択します。Dev-Prod モードの場合は、環境も選択する必要があります。
左側のナビゲーションウィンドウで [バッチパイプライン] をクリックします。[バッチパイプライン] リストから構成するオフラインパイプラインをクリックし、構成ページを開きます。
ページ右上隅の [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側ナビゲーションウィンドウで [出力] を選択します。右側の出力コンポーネント一覧から [Lindorm (コンピュートエンジン)] コンポーネントを見つけ、キャンバス上にドラッグします。
上流コンポーネントのアイコンをクリックしてドラッグし、Lindorm (コンピュートエンジン) 出力コンポーネントに接続します。
Lindorm (コンピュートエンジン) 出力コンポーネントカード上のアイコンをクリックして、[Lindorm (コンピュートエンジン) 出力構成] ダイアログボックスを開きます。

[Lindorm (コンピュートエンジン) 出力構成] ダイアログボックスで、以下のパラメーターを構成します。

パラメーター		説明
基本設定	ステップ名	Lindorm (コンピュートエンジン) 出力コンポーネントの名前です。Dataphin が自動的にステップ名を生成しますが、必要に応じて変更できます。命名規則は以下のとおりです。使用できる文字は、漢字、英字、アンダースコア (_)、数字のみです。文字数は 64 文字以内である必要があります。
	データソース	「データソース」ドロップダウンリストには、Dataphin 内のすべての Lindorm (コンピュートエンジン) データソースが表示されます。各データソースに対してライトスルー権限があるかどうかも表示されます。アイコンをクリックすると、データソース名をコピーできます。特定のデータソースに対するライトスルー権限がない場合は、そのデータソースの横にある [リクエスト] をクリックして権限をリクエストしてください。詳細については、「データソース権限のリクエスト」をご参照ください。 Lindorm (コンピュートエンジン) データソースがない場合は、[作成] をクリックして作成してください。詳細については、「Lindorm (コンピュートエンジン) データソースの作成」をご参照ください。
	テーブル	出力データのターゲットテーブルを選択します。アイコンをクリックすると、選択したテーブル名をコピーできます。重要テーブルスキーマが変更された場合、パイプラインノードを再構成する必要があります。
	ファイルエンコーディング	UTF-8 および GBK をサポートしています。
	ローディングポリシー	データの追加と全データの上書きをサポートしています。データの追加：ターゲットテーブルに直接データを追加します。全データの上書き：まずターゲットテーブルまたは構成済みパーティション内のすべてのデータを削除し、その後新しいデータを書き込みます。
	圧縮フォーマット	このパラメーターは任意です。ソースファイルが圧縮されている場合、対応する圧縮フォーマットを選択することで、Dataphin がファイルを解凍できるようになります。サポートされるフォーマットは、zlib、hadoop-snappy、lz4、none です。デフォルトでは、ORC テーブルは zlib 圧縮を使用します。他のフォーマットのテーブルにはデフォルトの圧縮フォーマットはありません。
	パフォーマンス構成	出力テーブルが ORC フォーマットでフィールド数が多いシナリオでは、この構成を調整できます。メモリが十分にある場合は値を増やすことで書き込みパフォーマンスが向上します。メモリが不足している場合は値を減らすことでガベージコレクション (GC) 時間を短縮し、書き込みパフォーマンスを向上できます。デフォルト値はバイト単位で `{"hive.exec.orc.default.buffer.size":16384}` です。262,144 バイト (256 KB) を超える値を設定しないでください。
	パーティション	Iceberg フォーマット以外のパーティションテーブルの場合、書き込み操作用に固定の静的パーティション（例：`hh=xx,mm=xx`）を構成します。Iceberg フォーマットのパーティションテーブルは動的パーティションをサポートしており、パーティションを構成する必要はありませんが、フィールドマッピングにパーティションフィールドを含める必要があります。静的パーティションが構成されている場合は、それが書き込み操作に使用されます。
	準備ステートメント	データインポート前にデータベースで実行する SQL スクリプトです。
	終了ステートメント	データインポート後にデータベースで実行される SQL スクリプトです。
フィールドマッピング	入力フィールド	上流コンポーネントからの入力フィールドを表示します。
	出力フィールド	出力フィールドを表示します。[フィールド管理] をクリックして出力フィールドを選択します。アイコンをクリックすると、[選択済み入力フィールド] が [未選択入力フィールド] に移動します。アイコンをクリックすると、[未選択入力フィールド] が [選択済み入力フィールド] に移動します。
	マッピング	マッピングは、ソーステーブルの入力フィールドとターゲットテーブルの出力フィールドを接続します。マッピングには、同名マッピングと同行マッピングがあります。各シナリオは以下のとおりです。同名マッピング：同じ名前のフィールドをマッピングします。同行マッピング：ソーステーブルとターゲットテーブルのフィールド名が一致しませんが、対応する行のデータをマッピングする必要があります。同一行のフィールドのみをマッピングします。

[確認] をクリックして、Lindorm (コンピュートエンジン) 出力コンポーネント の構成を保存します。