すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データベースのバッチ同期

最終更新日:Feb 14, 2026

DataWorks の Data Integration は、データベース全体を対象とした効率的なバッチ同期を実現します。この機能により、ソースデータベースからターゲットデータストアへ、すべてまたは選択したテーブルを一度の操作、あるいは定期的なスケジュールで移行できます。完全同期および増分同期の両方をサポートしており、各テーブルごとに個別の同期タスクを作成する必要がなくなります。また、ターゲット側でのテーブルスキーマの自動作成も行うため、データベース移行が大幅に簡素化されます。

適用範囲/利用シーン

  • データ移行およびクラウド採用

    • MySQL や Oracle などのデータベースを、オンプレミスのデータセンターからクラウドベースのデータウェアハウスまたはデータレイクへ移行します。

    • 異なるクラウドプラットフォーム間、または異なるデータベースシステム間でデータを移行します。

  • データウェアハウスおよびデータレイクの構築

    オンライントランザクション処理(OLTP)データベースから、データウェアハウスまたはデータレイクの運用データストア(ODS)層へ、定期的に完全または増分データを移行します。このデータは、後続のデータ分析の基盤となります。

  • データバックアップおよびディザスタリカバリ

    • 本番環境のデータベース全体を、HDFS や Object Storage Service (OSS) などのコスト効率の高いストレージへ定期的にバックアップします。

    • 異なるリージョンまたは可用性ゾーン間でディザスタリカバリソリューションを実装します。

主な機能

以下の表では、データベース全体を対象としたバッチ同期の主な機能について説明します。

image

主な機能

機能

説明

異種データソース間のバッチ同期

バッチ同期は、オンプレミスデータセンターまたは他のクラウドプラットフォームから MaxCompute、Hologres、Object Storage Service (OSS) などのデータウェアハウスやデータレイクへのデータ移行をサポートします。詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。

複雑なネットワーク環境におけるデータ同期

バッチ同期は、ApsaraDB、オンプレミスデータセンター、Elastic Compute Service (ECS) インスタンス上に自社ホストされたデータベース、およびサードパーティクラウド上のデータベースなど、さまざまな環境からのデータ転送をサポートします。タスクの構成を行う前に、リソースグループとソースおよびターゲットのデータソース間のネットワーク接続性を確保してください。詳細については、「ネットワーク接続性」をご参照ください。

同期モード

完全同期

ターゲットテーブルまたは指定されたパーティションに対して、ワンタイムまたは定期的な完全データ同期をサポートします。

増分同期

時間、パーティション、またはプライマリキーに基づく、ワンタイムまたは定期的な増分データ同期をサポートします。

完全+増分の組み合わせ同期

初回実行: 1 回限りの完全なデータ同期を実行します。

以降の実行: 指定されたパーティションへの定期的な増分同期に自動的に切り替わります。

データベースおよびテーブルのマッピング

バッチテーブル同期

データベース内のすべてのテーブルを同期することをサポートします。また、チェックボックスによる選択やフィルタリングルールの設定によって、特定のテーブルを選択することも可能です。

自動スキーマ作成

単一の構成で、ソースデータベースから数百のテーブルを一括処理できます。この機能は、ターゲット側でテーブルスキーマを自動的に作成するため、手動介入の必要がありません。

柔軟なマッピング

ターゲットデータベースおよびテーブルのカスタム命名ルールをサポートします。また、ソースとターゲット間のフィールド型についても、ターゲットのデータモデルに適合させるためのカスタムマッピングを定義できます。

スケジューリングおよび依存関係管理

スケジューリング

分単位、時単位、日単位、週単位、月単位、年単位でのスケジューリングをサポートします。

一度に多数のテーブルを同期している場合、タスクの蓄積とリソース競合を防ぐために、スケジューリング構成で実行時間をずらすことを推奨します。

タスク依存関係

DataWorks では、データベース全体の メインタスク および個々のテーブルレベルの サブタスク の両方を、他の開発タスクの上流依存関係として使用できます。テーブル同期タスクが完了すると、DataWorks は自動的にその下流の開発タスクをトリガーします。

パラメーター対応

増分同期におけるスケジューリングパラメーターの使用をサポートします。たとえば、ビジネス日付を表すために ${bizdate} を使用できます。

高度なパラメーター

ダーティデータの取り扱い

不正データとは、型の不一致や制約違反などのエラーによりターゲットへ書き込めないレコードを指します。デフォルト値は false であり、不正データが発生した場合にタスクが失敗します。true に設定すると、すべての不正データが無視されます。

リーダーおよびライターの構成

リーダー(ソース)およびライター(ターゲット)それぞれの最大接続数を構成できます。また、データ書き込み前にターゲット側でクリーンアップポリシーを定義することも可能です。

同時実行制御およびレート制限

  • データベースからの読み取りおよび書き込みに対する同時実行数を制御し、タスクの並列度を制限できます。

  • レート制限により、データ転送速度を制御して、ソースまたはターゲットデータソースへの過剰な負荷を防止します。レート制限を設定しない場合、ハードウェアが許容する最大転送速度でタスクが実行されます。

運用・保守(O&M)

手動介入

Rerun(再実行)、データバックフィル、ステータスを「成功」とマーク、タスクのフリーズおよび復元など、手動介入操作を実行できます。

監視およびアラート通知

ベースライン、タスクステータス、実行時間に対する監視ルールを構成でき、ルールがトリガーされた際にアラートを送信できます。

Data Quality

タスクのコミットおよびデプロイ後に、オペレーションセンターでターゲットテーブルのデータ品質監視ルールを構成できます。ルールは手動で設定するか、AI 機能による自動生成を利用できます。現在、品質ルール監視は特定のデータベースタイプのみで利用可能です。詳細については、「Data Quality」をご参照ください。

クイックスタート

データベース全体を対象としたバッチ同期タスクを作成するには、「データベース全体のバッチ同期の構成」をご参照ください。

サポートされるデータソース

DataWorks では、MaxCompute、Object Storage Service (OSS)、Elasticsearch など、さまざまなデータストアへデータベース全体の移行をサポートしています。サポートされるデータソースを以下に示します。

ソース

宛先

MaxCompute

Data Lake Formation

Hologres

Object Storage Service (OSS)

Elasticsearch

StarRocks