データウェアハウスを計画し、データソース情報を設定した後、製品、顧客、注文テーブルなどのソースデータをプロジェクトに導入する必要があります。このトピックでは、データソースから確立されたプロジェクトワークスペースにデータを統合する方法について説明します。
背景情報
製品、顧客、注文テーブルの統合プロセスは同じで、パイプラインの名前だけが異なります。このトピックでは、製品テーブルを例として使用して統合プロセスを示します。
製品テーブルを統合した後、このトピックの手順に従って、顧客テーブルと注文テーブルをプロジェクトに統合します。
ステップ 1:パイプライン開発スクリプトの作成
Dataphin ホームページで、トップメニューバーに移動し、[開発] > [data Integration] を選択します。
トップメニューバーで、[プロジェクト] を選択します。本番開発モードの場合は、[環境] も選択します。
左側のナビゲーションウィンドウで、[統合] > [バッチパイプライン] を選択します。右側のオフライン統合リストで、
アイコンをクリックし、[バッチパイプライン] を選択します。
[オフラインパイプラインの作成] ダイアログボックスで、必要なパラメーターを入力します。
パラメーター
説明
[パイプライン名]
Product Table Integration と入力します。
[スケジュールタイプ]
[定期タスクノード] を選択します。
[説明] (オプション)
必要に応じて、オフラインパイプラインの簡単な説明を入力します。
[ディレクトリの選択] (オプション)
デフォルトのディレクトリは [バッチパイプライン] です。
[OK] をクリックして、オフラインパイプラインの作成を完了します。
オフラインパイプラインパラメーター構成の詳細については、「単一パイプラインを使用した統合タスクの作成」をご参照ください。
ステップ 2:オフラインパイプラインスクリプトの開発
オフライン単一パイプライン開発ページで、[コンポーネントライブラリ] をクリックします。
[入力] コンポーネントで、[mysql 入力コンポーネント] を選択し、パイプラインキャンバスにドラッグします。
[出力] コンポーネントで、[maxcompute 出力コンポーネント] を選択し、パイプラインキャンバスにドラッグします。
[mysql 入力コンポーネント] を [maxcompute 出力コンポーネント] に接続します。
入力コンポーネントと出力コンポーネントの
アイコンをクリックして、[mysql 入力コンポーネント] と [maxcompute 出力コンポーネント] を構成します。
[mysql 入力コンポーネント]
パラメーター
説明
[ステップ名]
デフォルト値を保持します。
[データソース]
ステップ 2 で作成したデータソース dataphin_tutorial を選択します。
[ソーステーブルボリューム]
[単一テーブル] オプションを選択します。
[テーブル]
product という名前のソーステーブルを選択します。
[シャードキー] (オプション)
シャードキーは必要ありません。
[入力フィルター] (オプション)
フィルター条件は必要ありません。
[出力フィールド]
デフォルトの出力フィールドを使用する必要があります。
[maxcompute 出力コンポーネント]
パラメーター
説明
[ステップ名]
デフォルト名を維持します。
[データソース]
現在のプロジェクト [プロジェクト] > dataphin_tutorial(dataphin_tutorial) を選択します。
[テーブル]
ターゲットテーブルを作成するには:
[ワンクリックでターゲットテーブルを生成] をクリックします。
コード入力ボックスで、デフォルトのテーブル作成文を保持します。
[作成] をクリックします。
[ロードポリシー]
[データの追加] をロードポリシーとして選択します。
[マッピング]
マッピング関係については、[同一名マッピング] を選択します。
[OK] をクリックして、入力コンポーネントと出力コンポーネントの構成を完了します。
入力コンポーネントと出力コンポーネントのパラメーター構成の詳細については、「MySQL 入力コンポーネントの構成」、「MaxCompute 出力コンポーネントの構成」をご参照ください。
ステップ 3:パイプラインスクリプトのスケジューリングパラメーターの構成
現在のオフラインパイプライン開発キャンバスのメニューバーにある [スキャン構成] ボタンをクリックして、スケジューリング構成にアクセスします。
[スケジュールの依存関係] セクションで、[上流の依存関係] を設定し、その他のパラメーターはデフォルト設定のままにします。
[上流の依存関係] セクションで、[ルートノードの追加] をクリックして、現在のタスクの上流の依存関係として設定します。
オフライン統合タスクプロパティの構成の詳細については、「オフラインパイプラインタスクプロパティの構成」をご参照ください。
ステップ 4:オフライン単一パイプラインスクリプトの送信と公開
パイプラインスクリプトを送信するには、現在のオフラインパイプライン開発キャンバスのメニューバーにある [送信] アイコンをクリックします。
ダイアログボックスの [送信コンテンツ] と [事前チェック] 情報を確認し、必要な [送信の備考] を入力します。
[OK をクリックして送信] をクリックして続行します。
タスクを送信すると、Dataphin は系統分析を実行し、送信チェックを実行します。詳細については、「統合タスクの送信手順」をご参照ください。