Dataphin バッチパイプライン経由で DataHub に外部レコードを書き込む - Dataphin

DataHub 出力ウィジェットを構成すると、外部データベースから DataHub へのデータ書き込み、および接続されたストレージシステムからビッグデータプラットフォームへのデータのコピーとプッシュが可能になり、統合と再処理が行えます。このトピックでは、DataHub 出力ウィジェットを構成する手順について説明します。

前提条件

DataHub データソースが作成されている必要があります。詳細については、「DataHub データソースの作成」をご参照ください。
DataHub 入力ウィジェットのプロパティを構成するには、アカウントがデータソースに対するリードスルー権限を持っている必要があります。権限がない場合は、データソースへのアクセスをリクエストする必要があります。詳細については、「データソース権限のリクエスト、更新、返却」をご参照ください。

操作手順

Dataphin ホームページで、上部のメニューバーから [開発] > [データ統合] を選択します。
統合ページで、トップメニューバーから **[Project]** を選択します (開発-本番パターンでは環境の選択が必要です)。
左側のナビゲーションウィンドウで、[Batch Pipeline] をクリックします。次に、[Batch Pipeline] リストで、開発する Offline Pipeline をクリックしてその構成ページを開きます。
ページの右上隅にある[コンポーネントライブラリ]をクリックして、[コンポーネントライブラリ]パネルを開きます。
[コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[出力] を選択します。右側の出力ウィジェットリストで [DataHub] ウィジェットを見つけ、キャンバスにドラッグします。
ターゲットのアップストリームウィジェットのアイコンをクリックしてドラッグし、DataHub 出力ウィジェットに接続します。
DataHub 出力ウィジェットで、アイコンをクリックして、[DataHub 出力設定] ダイアログボックスを開きます。

[Datahub 出力設定] ダイアログボックスで、表に従ってパラメーターを設定します。

	パラメーター	説明
基本設定	ステップ名	DataHub 出力ウィジェットの名前です。Dataphin がステップ名を自動的に生成しますが、ビジネスシナリオに応じて変更することもできます。名前は次の要件を満たす必要があります。中国語の文字、文字、アンダースコア (_)、および数字のみを含めることができます。 64 文字を超えることはできません。
	データソース	データソースドロップダウンリストには、ライトスルー権限を持つデータソースと持たないデータソースを含む、すべての DataHub タイプのデータソースが表示されます。アイコンをクリックして、現在のデータソース名をコピーします。ライトスルー権限が付与されていないデータソースの場合、データソースの横にある[リクエスト]をクリックしてライトスルー権限を申請できます。詳細については、「データソース権限の申請、更新、返却」をご参照ください。 DataHub 型のデータソースがない場合は、[データソースの作成] をクリックしてデータソースを作成します。詳細については、「DataHub データソースの作成」をご参照ください。「」をご参照ください。
	件名	実際のシナリオに応じて、必要なトピックを選択します。
	提出あたりのデータ量	書き込み効率を向上させるため、Data Integration はバッファーデータを蓄積します。蓄積されたデータサイズが提出あたりのデータ量サイズ (MB 単位) に達すると、バッチで宛先に送信されます。デフォルトは 1 (1 MB のデータ) です。
	高度な構成	必要に応じて構成します。次のパラメーターがサポートされています。 maxRetryCount: 失敗したノードの最大リトライ回数です。リトライ回数は 3 を超えることはできません。 batchSize: 書き込み効率を向上させるため、Data Integration はバッファーデータを蓄積します。蓄積されたデータレコード数が batchSize (レコード単位) に達すると、バッチで宛先に送信されます。 maxCommitInterval: バッファーデータの最大時間です。単位: ミリ秒。デフォルトは 30,000 (30 秒) です。データ収集ソースが長時間データを生成しない場合、データのタイムリーな配信を確保するために、このパラメーターを設定する必要があります。設定された時間を超えると、配信が強制されます。説明提出あたりのデータ量、batchSize、および maxCommitInterval の 3 つのパラメーターについては、配信のためにいずれか 1 つのパラメーターが満たされる必要があります。さらに、DataHub は単一のリクエストで書き込まれるデータレコード数を 10,000 に制限しています。10,000 レコードを超えると、ノードが失敗する原因となります。ノードエラーを回避するために、batchSize を 10,000 レコード以下に設定することを推奨します。
フィールドマッピング	入力フィールド	入力フィールドは、アップストリームウィジェットの出力に基づいて表示されます。
	出力フィールド	出力フィールド領域には、選択されたテーブルのすべてのフィールドが表示されます。特定のフィールドをダウンストリームウィジェットに出力する必要がない場合は、対応するフィールドを削除できます。少数のフィールドを削除するには、[操作] 列のアイコンをクリックして、不要なフィールドを削除できます。多数のフィールドを削除するには、「[フィールド管理]」をクリックし、[フィールド管理] ページで複数のフィールドを選択してから、アイコンをクリックして、「[選択済み入力フィールド]」を「[未選択入力フィールド]」に移動します。
	マッピング	マッピング関係は、ソーステーブルの入力フィールドをターゲットテーブルの出力フィールドにマップするために使用されます。マッピング関係には、同名マッピングと同行マッピングが含まれます。シナリオは次のとおりです。同名マッピング: 同じフィールド名を持つフィールドをマップします。同行マッピング: ソーステーブルとターゲットテーブルのフィールド名が一致しないが、フィールドの対応する行のデータをマップする必要がある場合です。同じ行のフィールドのみがマップされます。

[OK] をクリックします。