すべてのプロダクト
Search
ドキュメントセンター

Dataphin:Databricks 入力コンポーネントの構成

最終更新日:May 29, 2025

Databricks 入力コンポーネントは、Databricks データソースからデータを読み取ります。Databricks データソースから他のデータソースにデータを同期する必要があるシナリオでは、まず Databricks 入力コンポーネントが読み取るソースデータソース情報を構成し、次にデータ同期のターゲットデータソースを構成する必要があります。このトピックでは、Databricks 入力コンポーネントを構成する方法について説明します。

前提条件

  • Databricks データソースを作成済みであること。詳細については、「Databricks データソースを作成する」をご参照ください。

  • Databricks 入力コンポーネントのプロパティを構成するために使用するアカウントが、データソースに対するリードスルー権限を持っていること。権限がない場合は、データソース権限をリクエストする必要があります。詳細については、「データソース権限をリクエストする」をご参照ください。

手順

  1. Dataphin ホームページの上部ナビゲーションバーで、[開発] > [Data Integration] を選択します。

  2. 統合ページの上部ナビゲーションバーで、プロジェクト を選択します(開発 - 本番モードでは、環境を選択する必要があります)。

  3. 左側のナビゲーションウィンドウで、[バッチパイプライン] をクリックします。[バッチパイプライン] リストで、開発する オフラインパイプライン をクリックして構成ページを開きます。

  4. ページの右上隅にある [コンポーネントライブラリ] をクリックして、[コンポーネントライブラリ] パネルを開きます。

  5. [コンポーネントライブラリ] パネルの左側のナビゲーションウィンドウで、[入力] を選択します。右側の入力コンポーネントリストで [Databricks] コンポーネントを見つけ、キャンバスにドラッグします。

  6. Databricks 入力コンポーネントカードの image アイコンをクリックして、[Databricks] [入力構成] ダイアログボックスを開きます。

  7. [Databricks 入力構成] ダイアログボックスで、パラメーターを構成します。

    パラメーター

    説明

    ステップ名

    Databricks 入力コンポーネントの名前。Dataphin は自動的にステップ名を生成しますが、ビジネスシナリオに基づいて変更できます。名前は次の要件を満たしている必要があります。

    • 中国語、英字、アンダースコア(_)、数字のみ使用できます。

    • 最大 64 文字まで使用できます。

    データソース

    データソースドロップダウンリストには、現在の Dataphin インスタンス内のすべての Databricks データソースとプロジェクトレベルが表示されます。これには、リードスルー権限を持っている場合と持っていない場合のデータソースが含まれます。image アイコンをクリックして、現在のデータソース名をコピーします。

    リードスルー権限のないデータソースの場合は、データソースの横にある [リクエスト] をクリックして、リードスルー権限をリクエストできます。詳細については、「データソース権限をリクエストする」をご参照ください。

    Databricks データソースがない場合は、[データソースの作成] をクリックして作成します。詳細については、「Databricks データソースを作成する」をご参照ください。

    タイムゾーン

    タイムゾーンは、時間形式のデータを処理するために使用されます。デフォルト値は、選択したデータソースで構成されたタイムゾーンで、変更できません。

    説明

    V5.1.2 より前に作成されたタスクの場合、[データソースのデフォルト構成] または [チャネル構成のタイムゾーン] を選択できます。デフォルト値は [チャネル構成のタイムゾーン] です。

    • データソースのデフォルト構成: 選択したデータソースのデフォルトのタイムゾーン。

    • チャネル構成のタイムゾーン: 現在の統合タスクの [プロパティ] > [チャネル構成] で構成されたタイムゾーン。

    スキーマ (オプション)

    スキーマをまたいでテーブルを選択できます。テーブルが配置されているスキーマを選択します。スキーマを指定しない場合、データソースで構成されているスキーマがデフォルトで使用されます。

    プロジェクトをデータソースとして選択した場合、スキーマを構成することはできません。システムはプロジェクトに対応するスキーマを自動的に取得します。

    テーブル

    キーワードを入力してテーブルを検索するか、正確なテーブル名を入力して [完全一致] をクリックします。テーブルを選択すると、システムは自動的にテーブルの状態をチェックします。image アイコンをクリックして、選択したテーブルの名前をコピーします。

    シャードキー (オプション)

    システムは、構成されたシャードキーフィールドに基づいてデータをシャーディングします。このパラメーターを同時実行構成と組み合わせて使用することで、同時読み取りを実装できます。ソースデータテーブルの列をシャードキーとして使用できます。転送パフォーマンスを確保するために、プライマリキーまたはインデックス付きの列をシャードキーとして使用することをお勧めします。

    重要

    日付と時刻のタイプを選択すると、システムは最大値と最小値を識別し、合計時間範囲と同時実行性に基づいてシャーディングを実行します。均等な分散は保証されません

    バッチ読み取り数 (オプション)

    一度に読み取るレコードの数。ソースデータベースからデータを読み取るときに、レコードを 1 つずつ読み取る代わりに、特定のバッチ読み取り数 (例: 1,024 レコード) を構成できます。これにより、データソースとの対話の回数が減り、I/O 効率が向上し、ネットワーク遅延が軽減されます。

    入力フィルター (オプション)

    Databricks データベースでサポートされている条件式をデータフィルター条件として入力します。

    説明
    • WHERE キーワードの後にあるコンテンツのみを入力します。WHERE キーワードは入力しないでください。

    • データタイムスタンプ ${bizdate} などのシステムグローバル変数を使用できます。

    出力フィールド

    [出力フィールド] セクションには、選択したテーブルとフィルター条件に一致するすべてのフィールドが表示されます。特定のフィールドをダウンストリームコンポーネントに出力したくない場合は、これらのフィールドを削除できます。

    説明

    データソーステーブルは階層分類をサポートしていません。

    • 単一フィールドの削除: 少量のフィールドを削除する必要がある場合は、[操作] 列の sgaga アイコンをクリックして、不要なフィールドを削除できます。

    • 複数フィールドのバッチ削除: 多数のフィールドを削除する必要がある場合は、[フィールド管理] をクリックします。[フィールド管理] ダイアログボックスで、複数のフィールドを選択し、image 左矢印アイコンをクリックして、選択した入力フィールドを未選択の入力フィールドに移動してから、[OK] をクリックして、フィールドのバッチ削除を完了します。

  8. [OK] をクリックして、[Databricks] 入力コンポーネントのプロパティ構成を完了します。