Impala 出力コンポーネントは、Impala データソースへのデータ書き込みを可能にします。他のソースから Impala データソースにデータを同期する場合、ソースデータソースの情報を設定した後に Impala 出力コンポーネントを設定する必要があります。このトピックでは、その設定手順について説明します。
前提条件
Impala データソースが作成済みであること。詳細については、「Impala データソースの作成」をご参照ください。
Impala 出力コンポーネントのプロパティを設定するアカウントには、データソースに対するライトスルー権限が必要です。この権限がない場合は、データソースに対する権限をリクエストする必要があります。詳細については、「データソース権限のリクエスト、更新、返却」をご参照ください。
操作手順
Dataphin のホームページで、上部メニューバーから [開発] > [データ統合] を選択します。
統合ページの上部メニューバーで、[プロジェクト] を選択します (Dev-Prod モードの場合は [環境] を選択する必要があります)。
左側のナビゲーションウィンドウで [バッチパイプライン] をクリックし、[バッチパイプライン] リストで開発したいオフラインパイプラインをクリックして設定ページを開きます。
ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで [出力] を選択し、右側のリストから [Impala] コンポーネントを見つけてキャンバスにドラッグします。
ターゲットの入力、変換、またはフローコンポーネントから
アイコンをクリックしてドラッグし、Impala 出力コンポーネントに接続します。Impala 出力コンポーネントカードの
アイコンをクリックして、[Impala 出力設定] ダイアログボックスを開きます。
[Impala 出力設定] ダイアログボックスで、パラメーターを設定します。
パラメーター
説明
基本設定
ステップ名
Impala 出力コンポーネントの名前です。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに応じて変更することもできます。名前は以下の要件を満たす必要があります:
漢字、英字、アンダースコア (_)、数字のみ使用できます。
64 文字を超えることはできません。
データソース
データソースのドロップダウンリストには、すべての Impala タイプのデータソースが表示されます。これには、ライトスルー権限を持つデータソースと持たないデータソースの両方が含まれます。
ライトスルー権限のないデータソースについては、データソースの横にある [リクエスト] をクリックしてライトスルー権限をリクエストできます。詳細については、「データソース権限のリクエスト」をご参照ください。
Impala タイプのデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「Impala データソースの作成」をご参照ください。
テーブル
出力データのターゲットテーブルを選択します。
アイコンをクリックすると、現在選択されているテーブルの名前をコピーできます。読み込みポリシー
Impala は追加ポリシーのみをサポートし、上書きポリシーはサポートしていません。追加データポリシーでは、プライマリキー違反や制約違反があるとダーティデータエラーが表示されます。
バッチ書き込みデータ量
一度に書き込むデータ量のサイズです。[バッチ書き込み件数] も設定できます。システムは、2 つの設定のうち、先に上限に達した方の設定に従って書き込みを行います。デフォルトは 32M です。
バッチ書き込み件数
デフォルトは 2048 件です。データ同期の書き込み時には、バッチ書き込み戦略が採用されます。設定するパラメーターには、[バッチ書き込み件数] と [バッチ書き込みデータ量] があります。
蓄積されたデータ量が設定されたいずれかの上限 (つまり、バッチ書き込みデータ量または件数の上限) に達すると、システムは 1 バッチのデータが満たされたと判断し、このバッチのデータを一度にターゲット側に書き込みます。
バッチ書き込みデータ量を 32 MB に設定することを推奨します。バッチ挿入件数の上限については、1 件のレコードの実際のサイズに応じて柔軟に調整できます。通常は、バッチ書き込みの利点を最大限に活用するために、より大きな値に設定します。たとえば、1 件のレコードのサイズが約 1 KB の場合、バッチ挿入バイトサイズを 16 MB に設定できます。この条件を考慮し、バッチ挿入件数を 16 MB を 1 件のレコードサイズ 1 KB で割った結果 (つまり 16384 件) よりも大きく設定します。ここでは、20000 件に設定すると仮定します。このように設定すると、システムはバッチ挿入バイトサイズに基づいてバッチ書き込み操作をトリガーします。蓄積されたデータ量が 16 MB に達するたびに、書き込み操作が実行されます。
フィールドマッピング
入力フィールド
上流コンポーネントの出力に基づいて入力フィールドを表示します。
出力フィールド
出力フィールドを表示します。[フィールド管理] をクリックして出力フィールドを選択します。

アイコンをクリックして、[選択された入力フィールド] を [未選択の入力フィールド] に移動します。
アイコンをクリックして、[未選択の入力フィールド] を [選択された入力フィールド] に移動します。
マッピング関係
アップストリームの入力とターゲット テーブルのフィールドに基づき、フィールド マッピングを手動で選択できます。クイック マッピングには、行マッピングと名前マッピングが含まれます。
名前マッピング:同じフィールド名のフィールドをマッピングします。
行マッピング:ソーステーブルとターゲットテーブルのフィールド名は一致しませんが、フィールドの対応する行のデータをマッピングする必要があります。同じ行にあるフィールドのみがマッピングされます。
[OK] をクリックして、Impala 出力コンポーネントのプロパティ設定を完了します。