DataStudio モジュール内で直接データ統合タスクを作成・管理し、抽出、変換、ロードを単一ビューで統合します。
概要
DataStudio モジュール内で、他のタスクノードと併せてデータ統合タスクを定義・管理します。ETL/ELT パイプライン全体がモジュール切り替えなしで単一ビューで実行されます。
単一テーブルのバッチ同期 タスクは、依存関係設定付きのワークフローノードとして追加できます。その他の統合タスクは スタンドアロンノード として実行されます。
コアメカニズム:
-
構成の一貫性:Data Studio または Data Integration モジュールでタスクを作成する場合でも、構成インターフェイス、パラメーター、基盤となる関数は同一です。
-
双方向同期:Data Integration モジュールで作成されたタスクは、自動的に Data Studio の
data_integration_jobsディレクトリに同期され、source-type-destination-typeチャンネルごとに分類されます。
前提条件
-
データソースの準備
-
ソースおよび送信先のデータソースが設定済みです。データソース管理をご参照ください。
-
ご利用のデータソースがリアルタイム同期をサポートしています。サポートされるデータソースと同期ソリューションをご参照ください。
-
Hologres や Oracle などログ記録を必要とするデータソースについては、ログ記録が有効化されています。データソース一覧をご参照ください。
-
-
リソースグループ: サーバーレスリソースグループ を購入・設定済みです。
-
ネットワーク接続: リソースグループとご利用のデータソース間の ネットワーク接続 が確立されています。
Data Studio での統合タスクの作成
以下の例では、MySQL から MaxCompute への単一テーブルのバッチ同期タスクを作成します。
-
ノードの作成
-
DataWorks コンソールの ワークスペース ページに移動します。上部ナビゲーションバーで目的のリージョンを選択し、目的のワークスペースを見つけ、操作 列で を選択します。
-
ページ上部の + アイコンをクリックするか、ワークフローキャンバスのツールバーで を選択します。
-
基本情報の設定
データ遅延、ボリューム、複雑さの要件に基づき、バッチ同期またはリアルタイム同期を選択します。その後、ソースおよび送信先のデータベースタイプ、ネットワーク環境、機能要件に適合する互換性のある 同期ソリューション を選択します。
New Node ダイアログボックスで、以下の設定を行います。
-
Path: Data Studio のディレクトリツリー内でタスクノードを保存する場所を選択します。
-
Data Source Type: ソースデータソース(例:
MySQL)を選択します。 -
Data destination type: 送信先データソース(例:
MaxCompute)を選択します。 -
Specific Type: 要件に応じて同期ソリューション(例:
全 DB のリアルタイム、全 DB のバッチ、全 DB の完全増分、単一テーブルのバッチ)を選択します。 -
Name: タスクノードの名前(例:
mysql_to_mc_user_table)を入力します。

-
-
Confirm をクリックします。タスクが作成され、そのビジュアル構成ページが開きます。
-
-
タスク詳細の設定
残りの構成は Data Integration モジュールと同一です。
-
スケジューリングの設定(単一テーブルのバッチ同期のみ)
スケジュール時刻、スケジューリング依存関係、スケジューリングポリシー などのノードプロパティを設定して自動実行を有効化します。スケジューリングパラメーターを設定することで、ランタイム時に動的変数をノードインスタンスに渡すことができます。
-
タスクの公開と保守
-
ツールバーの Publish をクリックして、タスクを本番環境にデプロイします。その後、タスクは Operation and Maintenance Center で管理されます。
-
公開後は、オペレーションセンターで実行ステータス、ログ、アラート、依存関係を確認できます。タスク O&M とチューニング では、インスタンス管理、失敗したタスクの再実行、パフォーマンスチューニング、ダーティデータ処理について説明しています。
-
タスクタイプ
Data Integration は複数の同期モードをサポートしています。各モードはスケジューリング、依存関係サポート、ユースケースにおいて異なります。
単一テーブルのバッチ同期
構成: ウィザードモードによる構成 | スクリプトモードによる構成。
-
説明: 定義されたスケジュール(日次、時間単位など)に基づき、単一のソーステーブルと送信先テーブル間で定期的にデータを同期します。
-
ユースケース:
-
ビジネスデータの日次 T+1 同期により、データウェアハウスの ODS または DWD レイヤーを構築します。
-
本番データベースの業務テーブルを定期的にデータレイクまたはデータウェアハウスにアーカイブします。
-
レポートデータをデータソース間で定期的に移行します。
-
単一テーブルのリアルタイム同期
構成: 単一テーブルのリアルタイムタスク構成。
-
説明: CDC またはメッセージキューを使用して、単一のソーステーブルからのリアルタイムデータ変更(挿入、更新、削除)をキャプチャし、送信先テーブルに同期します。
-
ユースケース:
-
ビジネスデータベースからのリアルタイムデータ変更を MaxCompute または Hologres に同期し、リアルタイムデータウェアハウスを構築します。
-
リアルタイム監視ダッシュボードやレコメンデーションシステム向けのデータを提供します。
-
データベースインスタンス間で単一テーブルをリアルタイムでレプリケートします。
-
全 DB のバッチ同期
構成: 全 DB のバッチ同期タスク。
-
説明: ソースデータベースのすべてまたは複数のテーブルを一度だけ、または定期的にバッチ同期します。
-
ユースケース:
-
初回のクラウドデータウェアハウスへのビジネスデータベース全体の移行を行います。
-
データベース全体の定期的な完全バックアップまたは増分バックアップを実行します。
-
既存データを一度にすべてインポートして、新しいデータ分析環境を初期化します。
-
全 DB のリアルタイム同期
構成: 全 DB のリアルタイム同期タスク。
-
説明: ソースデータベースのすべてまたは指定されたテーブルのスキーマおよびデータ変更をリアルタイムでキャプチャし、送信先に同期します。
-
ユースケース:
-
読み書き分離およびリアルタイム分析のために、本番 OLTP データベースを分析用データベースにリアルタイムでレプリケートします。
-
データベース向けのリアルタイムディザスタリカバリソリューションを構築します。
-
データレイクまたはデータプラットフォームと複数の上流業務システム間でリアルタイムのデータ整合性を維持します。
-
全 DB の完全増分同期
構成: 全 DB の完全増分同期タスク。
-
説明: CDC データには
Insert、Update、Delete操作が含まれます。追記専用ストレージシステム(Delta 以外の MaxCompute テーブルなど)は、Update/Deleteをネイティブに適用できないため、データ不整合が発生します。このモードでは、送信先にベーステーブル(完全スナップショット)とログテーブル(増分ログ)を作成することでこの問題に対処します。 -
ユースケース:
-
送信先が Delta 以外の MaxCompute テーブルであり、ソースに自動インクリメント列がない場合、バッチ増分同期は利用できません。完全増分同期では、増分データが数分単位でログテーブルに書き込まれ、マージ後の状態は T+1 で確認可能になります。
-
機能比較
|
タスクタイプ |
作成場所 |
ワークフロー編成 |
スケジューリング設定 |
Data Studio デバッグ |
データソース隔離 |
|
単一テーブルのバッチ同期 |
Data Studio のみ |
|
|
|
|
|
単一テーブルのリアルタイム同期 |
Data Studio / Data Integration |
(スタンドアロンノードでのみ実行) |
|
(オペレーションセンターに公開して実行する必要があります) |
|
|
全 DB のバッチ同期 |
Data Studio / Data Integration |
(スタンドアロンノードでのみ実行) |
(サブタスクごとに個別のスケジュールを設定可能) |
(オペレーションセンターに公開して実行する必要があります) |
|
|
全 DB のリアルタイム同期 |
Data Studio / Data Integration |
(スタンドアロンノードでのみ実行) |
|
(オペレーションセンターに公開して実行する必要があります) |
|
|
全 DB の完全増分同期 |
Data Studio / Data Integration |
(スタンドアロンノードでのみ実行) |
(サブタスクごとに個別のスケジュールを設定可能) |
(オペレーションセンターに公開して実行する必要があります) |
|