すべてのプロダクト
Search
ドキュメントセンター

Dataphin:DataHub 入力コンポーネントの構成

最終更新日:Mar 06, 2025

DataHub 入力コンポーネントを構成すると、DataHub データソースからビッグデータプラットフォームに接続されているストレージシステムにデータを読み込み、データ統合と二次処理を実行できます。このトピックでは、DataHub 入力コンポーネントを構成する方法について説明します。

前提条件

  • DataHub データソースが作成されていること。詳細については、「DataHub データソースの作成」をご参照ください。

  • DataHub 入力コンポーネントのプロパティを構成するには、アカウントにデータソースのリードスルー権限が必要です。権限がない場合は、データソースの権限を取得する必要があります。詳細については、「データソース権限のリクエスト」をご参照ください。

手順

  1. Dataphin ホームページで、トップメニューバーから [開発] > [data Integration] を選択します。

  2. 統合ページのトップメニューバーで、プロジェクト を選択します(開発-本番モードでは環境を選択する必要があります)。

  3. 左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発が必要な オフライン パイプライン をクリックして、構成ページを開きます。

  4. ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。

  5. [コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択し、右側の入力コンポーネントリストで [datahub] コンポーネントを見つけて、キャンバスにドラッグします。

  6. DataHub 入力コンポーネントカードの image アイコンをクリックして、[datahub] [入力構成] ダイアログボックスを開きます。

  7. [datahub 入力構成] ダイアログボックスで、次の表に従ってパラメーターを構成します。

    パラメーター

    説明

    ステップ名

    これは DataHub 入力コンポーネントの名前です。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに応じて変更することもできます。命名規則は次のとおりです。

    • 日本語、英字、アンダースコア (_)、および数字のみ使用できます。

    • 64 文字を超えることはできません。

    データソース

    データソースのドロップダウンリストには、現在の Dataphin 内のすべての DataHub タイプのデータソースが表示されます。これには、リードスルー権限を持つデータソースと持たないデータソースの両方が含まれます。image アイコンをクリックして、現在のデータソース名をコピーします。

    • リードスルー権限のないデータソースの場合、データソースの後に [リクエスト] をクリックして、データソースのリードスルー権限をリクエストできます。詳細については、「データソース権限のリクエスト、更新、および返却」をご参照ください。

    • DataHub タイプのデータソースがまだない場合は、[作成] をクリックしてデータソースを作成します。詳細については、「DataHub データソースの作成」をご参照ください。

    サブジェクト

    DataHub トピックの名前。ドロップダウンリストをクリックして、読み取る必要のある DataHub サブジェクト名を選択します。

    消費開始時間

    データ消費を開始するオフセット。yyyyMMddHHmmss 形式の時間文字列で特定の時間を指定することのみサポートしており、これは時間範囲の左端です。スケジュールパラメーターと一緒に使用する必要があります。たとえば、スケジュールパラメーターが startTime=${20220101000000} として構成されている場合、[消費開始時間]${startTime} として構成されます。

    消費終了時間

    データ消費を終了するオフセット。yyyyMMddHHmmss 形式の時間文字列で特定の時間を指定することのみサポートしており、これは時間範囲の右端です。スケジュールパラメーターと一緒に使用する必要があります。たとえば、スケジュールパラメーターが endTime=${20220101000000} として構成されている場合、[消費終了時間]${endTime} として構成されます。

    バッチ読み取り数

    一度に読み取るレコード数。ソースデータベースからデータを読み取るときに、1 つずつ読み取る代わりに特定のバッチ読み取り数(1024 レコードなど)を構成して、データソースとの対話の回数を減らし、I/O 効率を向上させ、ネットワーク遅延を削減できます。

    出力フィールド

    出力フィールド領域には、選択したテーブルとフィルター条件に一致するすべてのフィールドが表示されます。特定のフィールドをダウンストリームコンポーネントに出力する必要がない場合は、対応するフィールドを削除できます。

    • 単一フィールド削除シナリオ:少数のフィールドを削除する必要がある場合は、操作列の下にある sgaga アイコンをクリックして、余分なフィールドを削除できます。

    • バッチフィールド削除シナリオ:多数のフィールドを削除する必要がある場合は、[フィールド管理] をクリックし、[フィールド管理] ダイアログボックスで複数のフィールドを選択してから、image 左シフトアイコンをクリックして、選択した入力フィールドを選択されていない入力フィールドに移動し、[OK] をクリックしてバッチフィールド削除を完了します。image..png

  8. [OK] をクリックして、DataHub 入力コンポーネントの構成を完了します。