Data Integration では、コードを記述することなく、コードレス UI を使って定期的に単一のソーステーブルまたはシャードテーブルから送信先テーブルへフルデータまたは増分データを同期できます。同期タスクは、ソースと送信先を選択し、DataWorks のスケジューリングパラメーターを使用して構成します。本トピックでは、コードレス UI で単一テーブルのバッチ同期タスクを構成する際の一般的な設定項目について説明します。データソースによって設定内容が異なる場合があります。詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。
前提条件
データソースが構成済みであること。Data Integration 同期タスクを設定する前に、必要なソースおよびターゲットデータベースが DataWorks の データソース管理 に登録されていることを確認してください。データソースの構成方法の詳細については、「データソース一覧」をご参照ください。
説明バッチ同期をサポートするデータソースとその構成方法については、「サポートされるデータソースと同期ソリューション」をご参照ください。
データソースの機能に関する詳細については、「データソース管理」をご参照ください。
適切なスペックのリソースグループが購入され、ワークスペースに関連付けられていること。詳細については、「サーバーレスリソースグループの使用」をご参照ください。
リソースグループとデータソース間にネットワーク接続が確立されていること。詳細については、「ネットワーク接続の構成」をご参照ください。
ステップ 1:Data Integration ノードの作成
Data Studio (新バージョン)
DataWorks コンソール にログインします。左側のナビゲーションウィンドウで、 を選択します。ドロップダウンリストからご利用のワークスペースを選択し、Data Studio に移動 をクリックします。
ワークフローを作成します。詳細については、「ワークフロー」をご参照ください。
Data Integration ノードを作成します。以下のいずれかの方法を使用できます。
方法 1:ワークフロー一覧で右上隅の
アイコンをクリックし、 を選択します。方法 2:ワークフロー名をダブルクリックし、右側のワークフローエディターに Data Integration ノードを Data Integration ディレクトリからドラッグします。
ノードのソースタイプおよび送信先タイプを構成し、単一テーブルバッチ同期 を選択して、OK をクリックします。
Data Studio (レガシバージョン)
DataWorks コンソール にログインします。左側のナビゲーションウィンドウで、 を選択します。ドロップダウンリストからご利用のワークスペースを選択し、データ開発に移動 をクリックします。
ワークフローを作成します。詳細については、「ワークフローの作成」をご参照ください。
バッチ同期ノードを作成します。以下のいずれかの方法を使用できます。
方法 1:ワークフローを展開し、Data Integration を右クリックして、 を選択します。
方法 2:ワークフロー名をダブルクリックし、右側のワークフローエディターに バッチ同期 ノードを Data Integration ディレクトリからドラッグします。
表示されるプロンプトに従ってバッチ同期ノードを作成します。
ステップ 2:データソースとランタイムリソースの構成

ソース セクションおよび 送信先 セクションで、読み取り元および書き込み先の具体的なオブジェクトを選択します。
ランタイムリソース セクションで、同期タスク用の リソースグループ を選択し、リソースグループ から CU を割り当てます。リソースが不足してメモリ不足 (OOM) エラーにより同期タスクが失敗した場合は、CU 値を増やしてください。推奨されるリソースクォータの構成については、「Data Integration パフォーマンスメトリクス」をご参照ください。
ソースおよび送信先の両方が接続テストに合格していることを確認します。データソースとリソースグループ間のネットワーク接続が失敗した場合は、表示されるプロンプトまたは「ネットワーク接続の構成」に従ってネットワーク接続を構成してください。
リソースグループを作成済みにもかかわらずここに表示されない場合は、そのリソースグループがワークスペースにアタッチされているかどうかを確認してください。詳細については、「サーバーレスリソースグループの使用」をご参照ください。
ステップ 3:同期ソリューションの構成
ソースおよび送信先セクションで、読み取りおよび書き込み対象のテーブルを構成し、同期するデータ範囲を指定します。
プラグインの構成は異なります。以下のセクションでは一般的な設定例を示します。特定の設定がプラグインでサポートされているかどうか、およびその実装方法を確認するには、該当プラグインのドキュメントをご参照ください。詳細については、「データソース一覧」をご参照ください。
1. ソース
ソースセクションで、データテーブルを構成し、表示されるプロンプトに従って必須パラメーターを入力します。
操作 | 説明 |
データフィルタリング | 一部のソースタイプではデータフィルタリングがサポートされています。 増分同期を実行するには、このフィルター条件とスケジューリングパラメーターを組み合わせて動的に設定できます。たとえば、 増分同期の構成方法は、データソースおよびプラグインによって異なります。 データフィルターを構成しない場合、タスクはデフォルトでテーブルのすべてのデータを同期します。 |
シャーディングキー | ソースデータ内のフィールドをシャーディングキー(別名 プライマリキーは通常均等に分散されているため、テーブルのプライマリキーをシャーディングキーとして使用することを推奨します。これにより、作成されたシャード内でデータホットスポットが発生するのを防ぐことができます。 シャーディングキーは整数型である必要があります。文字列、浮動小数点、日付などのデータ型はサポートされていません。サポートされていない型を指定した場合、DataWorks はシャーディングキーを無視し、単一チャネルで同期を実行します。 シャーディングキーを指定しない、またはその値が空の場合、タスクは単一チャネルでテーブルデータを同期します。 すべてのプラグインがシャーディングキーの指定によるタスクシャーディングロジックをサポートしているわけではありません。上記の情報はあくまで例です。詳細については、ご利用のプラグインのドキュメントをご参照ください。詳細については、「データソース一覧」をご参照ください。 |
2. データ処理
データ処理は、データ開発の新バージョンで利用可能な機能です。レガシバージョンでこの機能を使用するには、タスク作成時に 新バージョンを使用 (データ処理 機能付き) を選択する必要があります。すべての機能を利用するために、レガシワークスペースを新バージョンにアップグレードすることを推奨します。詳細については、「Data Studio アップグレードガイド」をご参照ください。
データ処理を使用すると、送信先テーブルへの書き込み前に、文字列置換、AI アシスト処理、データ埋め込みなどの方法でソーステーブルからのデータを処理できます。

スイッチをクリックしてデータ処理を有効にします。
データ処理リストで、ノードの追加 をクリックし、データ処理タイプとして 文字列置換、AI 処理、または データ埋め込み を選択します。複数のデータ処理ノードを追加でき、DataWorks はそれらを順次処理します。
表示されるプロンプトに従ってデータ処理ルールを構成します。AI アシスト処理およびデータ埋め込みの詳細については、「データ処理」をご参照ください。
説明データ処理は追加の計算リソースを消費し、同期タスクのリソースオーバーヘッドおよび実行時間を増加させます。同期効率に影響を与えないように、処理ロジックはできるだけシンプルに保ってください。
3. 送信先
送信先セクションで、データテーブルを構成し、表示されるプロンプトに従って必須パラメーターを入力します。
操作 | 説明 |
同期前後 SQL ステートメントの構成 | 一部のデータソースでは、データ書き込み前(同期前)およびデータ書き込み後(同期後)に送信先で SQL ステートメントを実行できます。 たとえば、MySQL Writer では、 |
競合時の書き込みモードの定義 | パス競合やプライマリキーコンフリクトなどの競合が発生した場合に、送信先へのデータ書き込み方法を指定します。この設定は、データソースの特性およびライタープラグインのサポート状況によって異なります。構成の詳細については、該当ライタープラグインのドキュメントをご参照ください。 |
4. フィールドマッピングの構成
ソースおよび送信先を選択した後、ソースカラムと送信先カラム間のマッピングを定義する必要があります。タスクは、このマッピングに基づいてソースフィールドのデータを対応する送信先フィールドに書き込みます。
ソースフィールドが送信先フィールドにマッピングされていない場合、そのデータは同期されません。
自動マッピングが正しくない場合は、手動で調整できます。
フィールドマッピングが不要な場合は、ソースフィールドと送信先フィールドの間の接続線を手動で削除できます。そのソースフィールドのデータは同期されません。
同期中にソースと送信先のフィールドの型が一致しないとダーティデータが生成され、書き込みエラーの原因となる可能性があります。ダーティデータの許容度を設定するには、次のステップの 詳細設定 をご参照ください。
フィールドは名前または行位置でマッピングできます。また、以下の操作も可能です。
送信先フィールドへの値の割り当て:ソースフィールド 列で、フィールドの追加 をクリックして、定数、スケジューリングパラメーター、または ビルトイン変数 を送信先テーブルに追加します。たとえば、
'123'、'${scheduling_parameter}'、または'#{built_in_variable}#'のような値を追加できます。説明スケジューリングパラメーターの使用方法の詳細については、「サポートされるスケジューリングパラメーターのフォーマット」をご参照ください。
ビルトイン変数を手動で追加し、送信先フィールドにマッピングして、その値をダウンストリームノードに渡すことができます。
以下の表は、各プラグインで利用可能なビルトイン変数の一覧です。
ビルトイン変数
説明
サポートプラグイン
'
#{DATASOURCE_NAME_SRC}#'ソースデータソースの名前
MySQL Reader
MySQL (シャード) Reader
PolarDB Reader
PolarDB (シャード) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (シャード) Reader
'
#{DB_NAME_SRC}#'ソーステーブルが存在するデータベースの名前
MySQL Reader
MySQL (シャード) Reader
PolarDB Reader
PolarDB (シャード) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (シャード) Reader
'
#{SCHEMA_NAME_SRC}#'ソーステーブルが存在するスキーマの名前
PolarDB Reader
PolarDB (シャード) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (シャード) Reader
'
#{TABLE_NAME_SRC}#'ソーステーブルの名前
MySQL Reader
MySQL (シャード) Reader
PolarDB Reader
PolarDB (シャード) Reader
PostgreSQL Reader
PolarDB-O Reader
PolarDB-O (シャード) Reader
ソースフィールドの編集:マッピングの手動編集 をクリックして、以下の操作を実行します。
ソースデータベースでサポートされている関数を使用してフィールドを処理します。たとえば、
Max(id)を使用して最大値のみを同期できます。フィールドマッピングプロセス中にすべてのフィールドが取得されなかった場合、ソースフィールドを手動で編集します。
説明MaxCompute Reader は関数の使用をサポートしていません。
ステップ 4:詳細設定の構成
詳細設定は、以前のデータ同期バージョンでは チャネルコントロール と呼ばれていました。
詳細設定を使用して、データ同期プロセスのプロパティを制御できます。パラメーターの詳細については、「バッチ同期における同時実行数と速度制限の関係」をご参照ください。
パラメーター | 説明 |
期待される最大同時実行数 | 現在のタスクでソースからの読み取りまたは送信先への書き込みに同時に使用できるスレッドの最大数です。 説明
|
同期レート | 同期レートを指定します。
説明 トラフィックメトリックは Data Integration 内部の測定値であり、実際のネットワークインターフェースカード (NIC) トラフィックを表すものではありません。通常、NIC トラフィックはチャネルトラフィックの 1~2 倍になります。実際のトラフィックの膨張率は、特定のデータストレージシステムの転送プロトコルのシリアル化に依存します。 |
ダーティデータレコードのポリシー | ダーティデータ とは、型の競合や制約違反などの例外により送信先に書き込めなかったデータレコードを指します。バッチ同期では、ダーティデータポリシーを定義でき、許容しきい値とタスクへの影響を設定できます。
重要 ダーティデータが大量に発生すると、同期タスク全体の速度に影響を与える可能性があります。 |
分散実行 | タスクを分散モードで実行するかどうかを指定します。
同期パフォーマンスに対する要件が高い場合は、分散モードを使用できます。このモードはフラグメント化されたマシンリソースを効率的に活用します。 重要
|
タイムゾーン | タイムゾーンをまたいでデータを同期する場合、ソースのタイムゾーンを設定して正しい変換を保証できます。 |
全体的な同期速度は、上記の設定に加えて、ソースデータソースのパフォーマンスおよびネットワーク環境にも影響されます。同期速度と最適化の詳細については、「バッチ同期タスクの高速化または速度制限」をご参照ください。
ステップ 5:スケジューリングプロパティの構成
定期的にスケジュールされるバッチ同期タスクでは、スケジューリングプロパティを構成する必要があります。ノードの構成ページで、右側パネルの スケジューリング をクリックしてプロパティを構成します。
同期タスクのスケジューリングパラメーター、スケジューリングポリシー、スケジュール時刻、スケジューリング依存関係を構成する必要があります。構成プロセスは他のデータ開発ノードと同じであるため、ここでは繰り返しません。
データ開発の新バージョンでのスケジューリング構成については、「ノードスケジューリング (新バージョン)」をご参照ください。
データ開発のレガシバージョンでのスケジューリング構成については、「ノードスケジューリング構成 (レガシバージョン)」をご参照ください。
スケジューリングパラメーターの使用方法の詳細については、「Data Integration でのスケジューリングパラメーター使用の典型的なシナリオ」をご参照ください。
ステップ 6:タスクのテストと公開
デバッグパラメーターを構成します。
バッチ同期タスク構成ページで、右側パネルの Run Configuration をクリックし、以下のパラメーターを構成してテストを実行します。
パラメーター
説明
リソースグループ
データソースに接続されているリソースグループを選択します。
スクリプトパラメーター
データ同期タスク内のプレースホルダーパラメーターに値を割り当てます。たとえば、タスクに
${bizdate}パラメーターが構成されている場合、yyyymmdd形式で日付パラメーターを構成する必要があります。タスクを実行します。
ツールバーの
実行アイコンをクリックして、データ開発でタスクを実行およびデバッグします。タスク実行後、送信先テーブルタイプに対応するノードを作成してそのデータをクエリし、データが正しく同期されたことを検証できます。タスクを公開します。
タスクが正常に実行された後、定期的にスケジュールする必要がある場合は、ノード構成ページの
アイコンをクリックしてタスクを本番環境に公開します。タスク公開の詳細については、「タスクの公開」をご参照ください。
制限事項
単一テーブルのバッチ同期タスクは、データ開発でのみ構成できます。
一部のデータソースでは、コードレス UI でバッチ同期タスクを構成できません。
データソースを選択した後、コードレス UI がサポートされていない旨のメッセージが表示された場合は、ツールバーの
アイコンをクリックしてコードエディターに切り替え、タスクの構成を続行できます。詳細については、「コードエディター構成」をご参照ください。
コードレス UI は使いやすいですが、一部の高度な機能はサポートしていません。より詳細な制御が必要な場合は、アイコンをクリックしてタスクをスクリプトに変換し、コードエディターで構成してください。
次のステップ
タスクを本番環境に公開した後、オペレーションセンターに移動してそのスケジュールを確認できます。Data Integration タスクの実行と管理、ステータスのモニタリング、リソースグループの O&M の詳細については、「バッチ同期タスクの O&M」をご参照ください。