すべてのプロダクト
Search
ドキュメントセンター

Dataphin:Hive 出力コンポーネントの設定

最終更新日:Mar 06, 2026

Hive 出力コンポーネントは、データを Hive データソースに書き込みます。他のデータソースから Hive へデータを同期する場合、まずソースデータソースの設定を行い、その後で Hive 出力コンポーネントを設定します。本トピックでは、Hive 出力コンポーネントの設定方法について説明します。

制限事項

Hive 出力コンポーネントは、以下のファイル形式の Hive テーブルへのデータ書き込みをサポートしています:orcparquettextHudiIceberg、および Paimon。Hudi 形式は、Hive コンピュートソースまたは Cloudera Data Platform 7.x 上のデータソースでのみサポートされます。Iceberg および Paimon 形式は、E-MapReduce 5.x 上の Hive コンピュートソースまたはデータソースでのみサポートされます。また、このコンポーネントは、ORC トランザクションテーブルおよび Kudu テーブルに対するデータ統合には対応していません。

説明

Kudu テーブルのデータ統合では、Impala 出力コンポーネントを使用します。詳細については、「Impala 出力コンポーネントの設定」をご参照ください。

前提条件

  • Hive データソースが作成されています。詳細については、「Hive データソースを作成する」をご参照ください。

  • Hive 出力コンポーネントのプロパティを設定するアカウントには、データソースに対するリードスルー権限が必要です。この権限がない場合は、データソースの権限をリクエストできます。詳細については、「データソースの権限をリクエストする」をご参照ください。

操作手順

  1. Dataphin のホームページで、上部メニューバーから [開発者] > [Data Integration] を選択します。

  2. 統合ページの上部メニューバーで、[プロジェクト] を選択します。Dev-Prod モードを使用している場合は、さらに [環境] も選択します。

  3. 左側ナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] 一覧から、開発対象のバッチパイプラインをクリックし、その構成ページを開きます。

  4. ページ右上隅で、[コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。

  5. [コンポーネントライブラリ] パネルの左側ナビゲーションウィンドウで、[出力] を選択します。出力コンポーネント一覧から [Hive] コンポーネントを見つけ、キャンバスにドラッグします。

  6. 対象の入力・変換・フローウィジェットの image アイコンをクリックしてドラッグし、現在の Hive 出力ウィジェットに接続します。

  7. Hive 出力コンポーネントカード上の image アイコンをクリックして、[Hive 出力設定] ダイアログボックスを開きます。image

  8. [Hive 出力設定] ダイアログボックスで、パラメーターを設定します。

    パラメーターは、Hive テーブルと Hudi テーブルで異なります。

    出力先テーブルが Hive テーブルの場合

    パラメーター

    説明

    [基本設定]

    [ステップ名]

    Hive 出力コンポーネントの名前です。Dataphin が自動的にステップ名を生成しますが、必要に応じて変更可能です。命名規則は以下のとおりです:

    • 名前には、漢字、英字、アンダースコア (_ )、数字を含めることができます。

    • 名前の長さは最大 64 文字までです。

    データソース

    ドロップダウンリストには、ライトスルー権限を持つものも含め、すべての Hive データソースが表示されます。現在のデータソース名をコピーするには、image アイコンをクリックします。

    • ライトスルー権限がないデータソースの場合、データソースの横にある[適用]をクリックして、データソースのライトスルー権限を申請できます。詳細については、「データソース権限の申請」をご参照ください。

    • Hive データソースがない場合は、[新規データソース] をクリックして作成します。詳細については、「Hive データソースの作成」をご参照ください。

    テーブル

    出力データの宛先テーブル(Hive テーブル)を選択します。 テーブル名のキーワードを入力して検索するか、正確なテーブル名を入力して [完全一致検索] をクリックできます。テーブルを選択すると、システムが自動的にテーブルの状態を確認します。現在選択中のテーブル名をコピーするには、image アイコンをクリックします。

    データ同期の対象テーブルが Hive データソースに存在しない場合、ワンクリックテーブル作成機能を使用して素早く作成できます。以下の手順に従ってください:

    1. [ワンクリックテーブル作成] をクリックします。Dataphin が対象テーブル作成用のコードを自動生成します。これには、デフォルトでソーステーブル名が採用される対象テーブル名と、Dataphin フィールドに基づく初期変換後のフィールドタイプが含まれます。

    2. [データレイクテーブル形式][なし] または [Iceberg] に設定します。

      説明

      データレイクテーブル形式が選択されたデータソースまたは現在のプロジェクトで使用されるコンピュートソースで有効化されており、かつ Iceberg に設定されている場合にのみ、Iceberg を選択できます。

    3. [実行エンジン][Hive] または [Spark] に設定します。

      説明

      データレイクテーブル形式が [Iceberg] に設定されている場合にのみ、実行エンジンを選択できます。選択されたデータソースで Spark が設定されている場合は、Spark がデフォルトで表示・選択されます。それ以外の場合は、Hive のみが表示・選択されます。

    4. 選択されたデータレイクテーブル形式および実行エンジンに基づいて DDL 文が自動生成されます。必要に応じて編集可能です。完了後、[作成] をクリックします。対象テーブルが作成されると、Dataphin が自動的にそれを出力先として使用します。

      説明
      • 開発環境に同名のテーブルが既に存在する場合、Dataphin が「テーブルが既に存在します」というエラーを報告します。

      • 一致する項目がない場合でも、テーブル名を手動で入力することでデータ統合を実行できます。

    [本番テーブル未存在時のポリシー]

    本番テーブルが存在しない場合に適用するポリシーです。[何もしない] または [自動作成] を選択できます。デフォルトは [自動作成] です。[何もしない] を選択した場合、ノード公開時にテーブルは作成されません。[自動作成] を選択した場合、ノード公開時にターゲット環境に同名のテーブルが作成されます。

    • [何もしない]:対象テーブルが存在しない場合、ノード送信時に「テーブルが存在しません」というメッセージが表示されますが、公開は可能です。この場合、ノードを実行する前に、本番環境で対象テーブルを作成する必要があります。

    • [自動作成][DDL 文の編集] をクリックします。選択されたテーブルの DDL 文が自動的に挿入され、必要に応じて調整できます。DDL 文内のテーブル名には、${table_name} プレースホルダーのみ使用可能です。これは実行時に実際のテーブル名に置き換えられます。

      対象テーブルが存在しない場合、システムはまず DDL 文を使用してテーブルを作成しようと試みます。テーブル作成に失敗した場合、公開前のチェックが失敗します。エラーメッセージに基づいて DDL 文を修正し、再度ノードを公開できます。対象テーブルが既に存在する場合は、DDL 文は実行されません。

    説明

    このパラメーターは、Dev-Prod モードを使用するプロジェクトでのみサポートされます。

    ファイルエンコーディング

    Hive に格納されるファイルのエンコーディング方式を選択します。[ファイルエンコーディング] には、[UTF-8] および [GBK] があります。

    読み込みポリシー

    ターゲットデータソース(Hive データソース)のテーブルへのデータ書き込み戦略です。ロードポリシーには、[全データ上書き][データ追加]、および [統合タスクによって書き込まれたデータのみ上書き] があります。各シナリオは以下のとおりです:

    • [全データ上書き]:対象テーブルまたはパーティションからすべてのデータを削除し、テーブル名をプレフィックスとする新しいデータファイルを追加します。

    • [データ追加]:データを直接対象テーブルに追加します。

    • [統合ノードによって書き込まれたデータのみ上書き]:対象テーブルまたはパーティションから、テーブル名をプレフィックスとするデータファイルを削除します。SQL ステートメントなど、他の手段で書き込まれたデータは削除されません。

    [NULL 値の置き換え](任意)

    このパラメーターは、textfile データストレージ形式のソーステーブルでのみサポートされます。NULL に置き換える文字列を入力します。たとえば、\N を入力すると、システムが文字列 \NNULL に置き換えます。

    [フィールド区切り文字](任意)

    このパラメーターは、textfile データストレージ形式のソーステーブルでのみサポートされます。フィールド間の区切り文字を入力します。空白のままにした場合、システムはデフォルトで \u0001 を区切り文字として使用します。

    [圧縮形式](任意)

    ファイルの圧縮形式です。利用可能な形式は、Hive 内のデータストレージ形式によって異なります:

    • データストレージ形式が orc の場合、zlib または snappy を選択できます。

    • データストレージ形式が parquet の場合、snappy または gzip を選択できます。

    • データストレージ形式が textfile の場合、gzipbzip2 lzolzo_deflatehadoop-snappy、または zlib を選択できます。

    [フィールド区切り文字の処理](任意)

    このパラメーターは、textfile データストレージ形式の出力テーブルでのみサポートされます。データにデフォルトまたはカスタムのフィールド区切り文字が含まれる場合、[フィールド区切り文字の処理] ポリシーを設定して、データ書き込みエラーを防止できます。[保持][削除]、または [置き換え] を選択できます。

    [行区切り文字の処理](任意)

    このパラメーターは、textfile データストレージ形式の出力テーブルでのみサポートされます。データにデフォルトまたはカスタムの行区切り文字が含まれる場合、[行区切り文字の処理] ポリシーを設定して、データ書き込みエラーを防止できます。デフォルトの行区切り文字は \n です。データに \r\n などの改行文字が含まれる場合、エラーを防ぐために処理ポリシーを選択します。[保持][削除]、または [置き換え] を選択できます。

    [Hadoop パラメーター設定](任意)

    書き込みパラメーターを調整するために使用します。テーブルの種類に応じて異なるパラメーターを入力できます。複数のパラメーターはカンマ (,) で区切り、{"key1":"value1", "key2":"value2"} の形式で指定します。たとえば、多くのフィールドを持つ ORC 出力テーブルの場合、利用可能なメモリ量に基づいて {"hive.exec.orc.default.buffer.size"} パラメーターを調整できます。十分なメモリがある場合は、この値を増加させて書き込みパフォーマンスを向上させることを推奨します。メモリ不足の場合は、GC 時間を短縮して書き込みパフォーマンスを向上させるために、この値を減らすことを推奨します。デフォルト値は 16384 bytes(16 KB)です。推奨上限値は 262144 bytes(256 KB)です。

    パーティション

    選択された対象テーブルがパーティションテーブルである場合、パーティション情報を入力する必要があります。例: state_date=20190101。また、パラメーターを使用して毎日増分でデータを書き込むこともできます。例: state_date=${bizdate}

    [準備ステートメント](任意)

    データインポート前にデータベース上で実行する SQL スクリプトです。

    たとえば、サービスの継続的な可用性を確保するために、このステップの実行前にターゲットテーブル Target_A を作成できます。このステップでは Target_A にデータを書き込みます。ステップ終了後、既存のサービステーブル Service_B を Temp_C にリネームし、Target_A を Service_B にリネームしてから Temp_C を削除できます。

    [完了ステートメント](任意)

    データインポート後にデータベース上で実行する SQL スクリプトです。

    フィールド マッピング

    入力フィールド

    上流コンポーネントの出力に基づいて入力フィールドを表示します。

    出力フィールド

    出力フィールド領域には、選択されたテーブルのすべてのフィールドが表示されます。

    重要

    データがエラーなく Hive に書き込まれるようにするため、すべての出力フィールドを入力フィールドにマッピングする必要があります。

    マッピング

    上流の入力および対象テーブルのフィールドに基づいて、手動でフィールドマッピングを選択できます。[マッピング] には、[同一行マッピング] および [同一名称マッピング] があります。

    • [名称によるマッピング]:名称が同じフィールドをマッピングします。

    • [行によるマッピング]:ソーステーブルとターゲットテーブルのフィールド名が異なっていても、同一行のフィールド間でデータをマッピングします。同一行のフィールドのみがマッピングされます。

    出力先テーブルが Hudi テーブルの場合

    パラメーター

    説明

    [基本設定]

    [ステップ名]

    Hive 出力コンポーネントの名前です。Dataphin が自動的にステップ名を生成しますが、必要に応じて変更可能です。命名規則は以下のとおりです:

    • 名前には、漢字、英字、アンダースコア (_ )、数字を含めることができます。

    • 名前の長さは最大 64 文字までです。

    [データソース]

    ドロップダウンリストには、ライトスルー権限を持つものも含め、すべての Hive データソースが表示されます。現在のデータソース名をコピーするには、image アイコンをクリックします。

    • ライトスルー権限を持たないデータソースについては、データソースの横にある [Apply] をクリックして、ライトスルー権限をリクエストできます。詳細な手順については、「データソースの権限をリクエストする」をご参照ください。

    • Hive データソースがない場合は、[データソースの作成] をクリックして作成します。詳細については、「Hive データソースの作成」をご参照ください。

    出力データの対象テーブル(Hudi テーブル)を選択します。 テーブル名のキーワードを入力して検索するか、正確なテーブル名を入力して [完全一致検索] をクリックできます。テーブルを選択すると、システムが自動的にテーブルの状態を確認します。現在選択中のテーブル名をコピーするには、image アイコンをクリックします。

    データ同期の対象テーブルが Hive データソースに存在しない場合、ワンクリックテーブル作成機能を使用して素早く作成できます。以下の手順に従ってください:

    1. [ワンクリックテーブル作成] をクリックします。Dataphin が対象テーブル作成用のコードを自動生成します。これには、デフォルトでソーステーブル名が採用される対象テーブル名と、Dataphin フィールドに基づく初期変換後のフィールドタイプが含まれます。

    2. [データレイクテーブル形式][Hudi] に設定します。

      • [Hudi テーブルタイプ][MOR (merge on read)] または [COW (copy on write)] を選択できます。デフォルトは MOR (merge on read) です。

      • [プライマリキーのフィールド](任意):プライマリキーのフィールドを入力します。複数のフィールドはカンマ (,) で区切ります。

      • [拡張プロパティ](任意):Hudi でサポートされる設定プロパティを k=v の形式で入力します。

        説明
        • 開発環境に同名のテーブルが既に存在する場合、[作成] をクリックしたときに Dataphin が「テーブルが既に存在します」というエラーを報告します。

        • 一致する項目がない場合でも、テーブル名を手動で入力することでデータ統合を実行できます。

    3. [実行エンジン][Hive] または [Spark] に設定します。

      説明

      データレイクテーブル形式が [Hudi] に設定されている場合にのみ、実行エンジンを選択できます。デフォルトの実行エンジンは Hive です。選択されたデータソースで Spark が有効になっている場合は、Spark を選択できます。

    4. 選択されたデータレイクテーブル形式および実行エンジンに基づいて DDL 文が自動生成されます。必要に応じて編集可能です。完了後、[作成] をクリックします。

    [本番テーブル未存在時のポリシー]

    本番テーブルが存在しない場合に適用するポリシーです。[何もしない] または [自動作成] を選択できます。デフォルトは [自動作成] です。[何もしない] を選択した場合、ノード公開時にテーブルは作成されません。[自動作成] を選択した場合、ノード公開時にターゲット環境に同名のテーブルが作成されます。

    • [何もしない]:対象テーブルが存在しない場合、ノード送信時に「テーブルが存在しません」というメッセージが表示されますが、公開は可能です。この場合、ノードを実行する前に、本番環境で対象テーブルを作成する必要があります。

    • [自動作成][DDL 文の編集] をクリックします。選択されたテーブルの DDL 文が自動的に挿入され、必要に応じて調整できます。DDL 文内のテーブル名には、${table_name} プレースホルダーのみ使用可能です。これは実行時に実際のテーブル名に置き換えられます。

      対象テーブルが存在しない場合、システムはまず DDL 文を使用してテーブルを作成しようと試みます。テーブル作成に失敗した場合、公開前のチェックが失敗します。エラーメッセージに基づいて DDL 文を修正し、再度ノードを公開できます。対象テーブルが既に存在する場合は、DDL 文は実行されません。

    説明

    このパラメーターは、Dev-Prod モードを使用するプロジェクトでのみサポートされます。

    パーティション

    選択された対象テーブルがパーティションテーブルである場合、パーティション情報を入力する必要があります。例: state_date=20190101。また、パラメーターを使用して毎日増分でデータを書き込むこともできます。例: state_date=${bizdate}

    読み込みポリシー

    ターゲットデータソース(Hive)へのデータ書き込みポリシーです。[データ上書き][データ追加]、および [データ更新] から選択できます。

    • [データ上書き]:既存のデータを新しいデータで置き換えます。

    • [データ追加]:データを直接対象テーブルに追加します。

    • [データ更新]:プライマリキーに基づいてレコードを更新します。レコードが存在しない場合は挿入されます。

      説明

      SQL ステートメントなど、他の手段で書き込まれたデータは削除されません。

    バルクインサート

    大量のデータを高速に一括同期するのに適しています。通常、初期データインポートに使用されます。

    説明

    このパラメーターは、ロードポリシーが [データ追加] または [データ上書き] に設定されている場合にのみサポートされ、デフォルトで有効になります。

    [バッチ書き込み]

    データを対象テーブルにバッチ単位で書き込むことができます。この機能を有効化した場合、[バッチ比率] の設定も必須です。

    バッチ比率

    Java 仮想マシン (JVM) メモリの合計に対する割合です。デフォルト値は 0.2 です。0.01 ~ 0.50 の範囲で小数値を入力できます。

    [Hadoop パラメーター設定](任意)

    書き込みパラメーターを調整するために使用します。テーブルの種類に応じて異なるパラメーターを入力できます。複数のパラメーターはカンマ (,) で区切り、{"key1":"value1", "key2":"value2"} の形式で指定します。{"hoodie.parquet.compression.codec":"snappy"} パラメーターを使用して、圧縮形式を snappy に変更できます。

    フィールド マッピング

    入力フィールド

    上流コンポーネントの出力に基づいて入力フィールドを表示します。

    [出力フィールド]

    出力フィールド領域には、選択されたテーブルのすべてのフィールドが表示されます。

    説明

    Hudi テーブルの場合は、すべてのフィールドをマッピングする必要はありません。

    マッピング

    上流の入力および対象テーブルのフィールドに基づいて、手動でフィールドマッピングを選択できます。[マッピング] には、[同一行マッピング] および [同一名称マッピング] があります。

    • [名称によるマッピング]:名称が同じフィールドをマッピングします。

    • [行によるマッピング]:ソーステーブルとターゲットテーブルのフィールド名が異なっていても、同一行のフィールド間でデータをマッピングします。同一行のフィールドのみがマッピングされます。

    出力先テーブルが Paimon テーブルの場合

    パラメーター

    説明

    [基本設定]

    [ステップ名]

    Hive 出力コンポーネントの名前です。Dataphin が自動的にステップ名を生成しますが、必要に応じて変更可能です。命名規則は以下のとおりです:

    • 名前には、漢字、英字、アンダースコア (_ )、数字を含めることができます。

    • 名前の長さは最大 64 文字までです。

    [データソース]

    ドロップダウンリストには、ライトスルー権限を持つものも含め、すべての Hive データソースが表示されます。現在のデータソース名をコピーするには、image アイコンをクリックします。

    • ライトスルー権限がないデータソースの場合、その横にある [要求] をクリックして、権限を申請できます。詳細については、「データソースの権限を申請する」をご参照ください。

    • Hive データソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「Hive データソースの作成」をご参照ください。「」をご参照ください。

    出力データの対象テーブル(Paimon テーブル)を選択します。 テーブル名のキーワードを入力して検索するか、正確なテーブル名を入力して [完全一致検索] をクリックできます。テーブルを選択すると、システムが自動的にテーブルの状態を確認します。現在選択中のテーブル名をコピーするには、image アイコンをクリックします。

    データ同期の対象テーブルが Hive データソースに存在しない場合、ワンクリックテーブル作成機能を使用して素早く作成できます。以下の手順に従ってください:

    1. [ワンクリックテーブル作成] をクリックします。Dataphin が対象テーブル作成用のコードを自動生成します。これには、デフォルトでソーステーブル名が採用される対象テーブル名と、Dataphin フィールドに基づく初期変換後のフィールドタイプが含まれます。

    2. [データレイクテーブル形式][なし][Iceberg]、または [Paimon] に設定します。

      説明

      データレイクテーブル形式が選択されたデータソースまたは現在のプロジェクトで使用されるコンピュートソースで有効化されており、かつ Iceberg に設定されている場合にのみ、Iceberg を選択できます。

    3. [実行エンジン][Hive] または [Spark] に設定します。

      説明

      データレイクテーブル形式が [Iceberg] または [Paimon] に設定されている場合にのみ、実行エンジンを選択できます。選択されたデータソースで Spark が設定されている場合は、Spark がデフォルトで表示・選択されます。それ以外の場合は、Hive のみが表示・選択されます。

    4. [Paimon テーブルタイプ] については、[MOR](merge on read)、[COW](copy on write)、または [MOW](merge on write)から選択できます。デフォルトは MOR です。

      説明

      データレイクテーブル形式が Paimon に設定されている場合にのみ、Paimon テーブルタイプを設定できます。

    5. 選択されたデータレイクテーブル形式および実行エンジンに基づいて DDL 文が自動生成されます。必要に応じて編集可能です。完了後、[作成] をクリックします。対象テーブルが作成されると、Dataphin が自動的にそれを出力先として使用します。

      説明
      • 開発環境に同名のテーブルが既に存在する場合、[作成] をクリックしたときに Dataphin が「テーブルが既に存在します」というエラーを報告します。

      • 一致する項目がない場合でも、テーブル名を手動で入力することでデータ統合を実行できます。

    [本番テーブル未存在時のポリシー]

    本番テーブルが存在しない場合に適用するポリシーです。[何もしない] または [自動作成] を選択できます。デフォルトは [自動作成] です。[何もしない] を選択した場合、ノード公開時にテーブルは作成されません。[自動作成] を選択した場合、ノード公開時にターゲット環境に同名のテーブルが作成されます。

    • [何もしない]:対象テーブルが存在しない場合、ノード送信時に「テーブルが存在しません」というメッセージが表示されますが、公開は可能です。この場合、ノードを実行する前に、本番環境で対象テーブルを作成する必要があります。

    • [自動作成][DDL 文の編集] をクリックします。選択されたテーブルの DDL 文が自動的に挿入され、必要に応じて調整できます。DDL 文内のテーブル名には、${table_name} プレースホルダーのみ使用可能です。これは実行時に実際のテーブル名に置き換えられます。

      対象テーブルが存在しない場合、システムはまず DDL 文を使用してテーブルを作成しようと試みます。テーブル作成に失敗した場合、公開前のチェックが失敗します。エラーメッセージに基づいて DDL 文を修正し、再度ノードを公開できます。対象テーブルが既に存在する場合は、DDL 文は実行されません。

    説明

    このパラメーターは、Dev-Prod モードを使用するプロジェクトでのみサポートされます。

    読み込みポリシー

    ターゲットデータソース(Hive データソース)のテーブルへのデータ書き込み戦略です。ロードポリシーには、[データ追加][データ上書き]、および [データ更新] があります。各シナリオは以下のとおりです:

    • [データ追加]:データを直接対象テーブルに追加します。

    • [データ上書き]:既存のデータを新しいデータで置き換えます。

    • [データ更新]:プライマリキーに基づいてレコードを更新します。レコードが存在しない場合は挿入されます。

    [NULL 値の置き換え](任意)

    このパラメーターは、textfile データストレージ形式のソーステーブルでのみサポートされます。NULL に置き換える文字列を入力します。たとえば、\N を入力すると、システムが文字列 \NNULL に置き換えます。

    [フィールド区切り文字](任意)

    このパラメーターは、textfile データストレージ形式のソーステーブルでのみサポートされます。フィールド間の区切り文字を入力します。空白のままにした場合、システムはデフォルトで \u0001 を区切り文字として使用します。

    [フィールド区切り文字の処理](任意)

    このパラメーターは、textfile データストレージ形式の出力テーブルでのみサポートされます。データにデフォルトまたはカスタムのフィールド区切り文字が含まれる場合、[フィールド区切り文字の処理] ポリシーを設定して、データ書き込みエラーを防止できます。[保持][削除]、または [置き換え] を選択できます。

    [行区切り文字の処理](任意)

    このパラメーターは、textfile データストレージ形式の出力テーブルでのみサポートされます。データにデフォルトまたはカスタムの行区切り文字が含まれる場合、[行区切り文字の処理] ポリシーを設定して、データ書き込みエラーを防止できます。デフォルトの行区切り文字は \n です。データに \r\n などの改行文字が含まれる場合、エラーを防ぐために処理ポリシーを選択します。[保持][削除]、または [置き換え] を選択できます。

    [Hadoop パラメーター設定](任意)

    書き込みパラメーターを調整するために使用します。テーブルの種類に応じて異なるパラメーターを入力できます。複数のパラメーターはカンマ (,) で区切り、{"key1":"value1", "key2":"value2"} の形式で指定します。たとえば、多くのフィールドを持つ ORC 出力テーブルの場合、利用可能なメモリ量に基づいて {"hive.exec.orc.default.buffer.size"} パラメーターを調整できます。十分なメモリがある場合は、この値を増加させて書き込みパフォーマンスを向上させることを推奨します。メモリ不足の場合は、GC 時間を短縮して書き込みパフォーマンスを向上させるために、この値を減らすことを推奨します。デフォルト値は 16384 bytes(16 KB)です。推奨上限値は 262144 bytes(256 KB)です。

    パーティション

    選択された対象テーブルがパーティションテーブルである場合、パーティション情報を入力する必要があります。例: state_date=20190101。また、パラメーターを使用して毎日増分でデータを書き込むこともできます。例: state_date=${bizdate}

    フィールド マッピング

    [入力フィールド]

    上流コンポーネントの出力に基づいて入力フィールドを表示します。

    [出力フィールド]

    出力フィールド領域には、選択されたテーブルのすべてのフィールドが表示されます。

    重要

    データがエラーなく Hive に書き込まれるようにするため、すべての出力フィールドを入力フィールドにマッピングする必要があります。

    マッピング

    上流の入力および対象テーブルのフィールドに基づいて、手動でフィールドマッピングを選択できます。[マッピング] には、[同一行マッピング] および [同一名称マッピング] があります。

    • [名称によるマッピング]:名称が同じフィールドをマッピングします。

    • [行によるマッピング]:ソーステーブルとターゲットテーブルのフィールド名が異なっていても、同一行のフィールド間でデータをマッピングします。同一行のフィールドのみがマッピングされます。

  9. [確認] をクリックして、[Hive 出力コンポーネント] の設定を完了します。