すべてのプロダクト
Search
ドキュメントセンター

Dataphin:ステップ 3:データの導入

最終更新日:Feb 06, 2025

データウェアハウスを計画し、データソース情報を設定した後、製品、顧客、注文テーブルなどのソースデータをプロジェクトに導入する必要があります。このトピックでは、データソースから確立されたプロジェクトワークスペースにデータを統合する方法について説明します。

背景情報

製品、顧客、注文テーブルの統合プロセスは同じで、パイプラインの名前だけが異なります。このトピックでは、製品テーブルを例として使用して統合プロセスを示します。

重要

製品テーブルを統合した後、このトピックの手順に従って、顧客テーブルと注文テーブルをプロジェクトに統合します。

ステップ 1:パイプライン開発スクリプトの作成

  1. Dataphin ホームページで、トップメニューバーに移動し、[開発] > [data Integration] を選択します。

  2. トップメニューバーで、[プロジェクト] を選択します。本番開発モードの場合は、[環境] も選択します。

  3. 左側のナビゲーションウィンドウで、[統合] > [バッチパイプライン] を選択します。右側のオフライン統合リストで、image アイコンをクリックし、[バッチパイプライン] を選択します。

  4. [オフラインパイプラインの作成] ダイアログボックスで、必要なパラメーターを入力します。

    パラメーター

    説明

    [パイプライン名]

    Product Table Integration と入力します。

    [スケジュールタイプ]

    [定期タスクノード] を選択します。

    [説明] (オプション)

    必要に応じて、オフラインパイプラインの簡単な説明を入力します。

    [ディレクトリの選択] (オプション)

    デフォルトのディレクトリは [バッチパイプライン] です。

  5. [OK] をクリックして、オフラインパイプラインの作成を完了します。

    オフラインパイプラインパラメーター構成の詳細については、「単一パイプラインを使用した統合タスクの作成」をご参照ください。

ステップ 2:オフラインパイプラインスクリプトの開発

  1. オフライン単一パイプライン開発ページで、[コンポーネントライブラリ] をクリックします。

  2. [入力] コンポーネントで、[mysql 入力コンポーネント] を選択し、パイプラインキャンバスにドラッグします。

  3. [出力] コンポーネントで、[maxcompute 出力コンポーネント] を選択し、パイプラインキャンバスにドラッグします。

  4. [mysql 入力コンポーネント][maxcompute 出力コンポーネント] に接続します。

    image.png

  5. 入力コンポーネントと出力コンポーネントの image.png アイコンをクリックして、[mysql 入力コンポーネント][maxcompute 出力コンポーネント] を構成します。

    • [mysql 入力コンポーネント]

      パラメーター

      説明

      [ステップ名]

      デフォルト値を保持します。

      [データソース]

      ステップ 2 で作成したデータソース dataphin_tutorial を選択します。

      [ソーステーブルボリューム]

      [単一テーブル] オプションを選択します。

      [テーブル]

      product という名前のソーステーブルを選択します。

      [シャードキー] (オプション)

      シャードキーは必要ありません。

      [入力フィルター] (オプション)

      フィルター条件は必要ありません。

      [出力フィールド]

      デフォルトの出力フィールドを使用する必要があります。

    • [maxcompute 出力コンポーネント]

      パラメーター

      説明

      [ステップ名]

      デフォルト名を維持します。

      [データソース]

      現在のプロジェクト [プロジェクト] > dataphin_tutorial(dataphin_tutorial) を選択します。

      [テーブル]

      ターゲットテーブルを作成するには:

      1. [ワンクリックでターゲットテーブルを生成] をクリックします。

      2. コード入力ボックスで、デフォルトのテーブル作成文を保持します。

      3. [作成] をクリックします。

      [ロードポリシー]

      [データの追加] をロードポリシーとして選択します。

      [マッピング]

      マッピング関係については、[同一名マッピング] を選択します。

  6. [OK] をクリックして、入力コンポーネントと出力コンポーネントの構成を完了します。

    入力コンポーネントと出力コンポーネントのパラメーター構成の詳細については、「MySQL 入力コンポーネントの構成」、「MaxCompute 出力コンポーネントの構成」をご参照ください。

ステップ 3:パイプラインスクリプトのスケジューリングパラメーターの構成

  1. 現在のオフラインパイプライン開発キャンバスのメニューバーにある [スキャン構成] ボタンをクリックして、スケジューリング構成にアクセスします。

  2. [スケジュールの依存関係] セクションで、[上流の依存関係] を設定し、その他のパラメーターはデフォルト設定のままにします。

    [上流の依存関係] セクションで、[ルートノードの追加] をクリックして、現在のタスクの上流の依存関係として設定します。

    オフライン統合タスクプロパティの構成の詳細については、「オフラインパイプラインタスクプロパティの構成」をご参照ください。

ステップ 4:オフライン単一パイプラインスクリプトの送信と公開

  1. パイプラインスクリプトを送信するには、現在のオフラインパイプライン開発キャンバスのメニューバーにある [送信] アイコンをクリックします。

  2. ダイアログボックスの [送信コンテンツ][事前チェック] 情報を確認し、必要な [送信の備考] を入力します。

  3. [OK をクリックして送信] をクリックして続行します。

    タスクを送信すると、Dataphin は系統分析を実行し、送信チェックを実行します。詳細については、「統合タスクの送信手順」をご参照ください。