すべてのプロダクト
Search
ドキュメントセンター

DataWorks:データベースのバッチ同期

最終更新日:Mar 19, 2026

DataWorks Data Integration は、データベースのバッチ同期を簡素化するソリューションを提供します。この機能により、ソースデータベースからターゲットデータストアへ、全テーブルまたは選択したテーブルを、一括で移行するか、定期スケジュールに従って繰り返し移行することが可能です。同期方式には完全同期および増分同期の両方がサポートされています。本機能では、各テーブルごとに個別にタスクを作成する必要がなく、またターゲットテーブルのスキーマも自動的に作成されるため、データベース全体の移行プロセスが大幅に効率化されます。

ユースケース

  • データ移行とクラウド採用

    • MySQL や Oracle などのオンプレミスデータベースを、クラウド上のデータウェアハウスまたはデータレイクへ移行します。

    • 異なるクラウドプラットフォーム間、または異なるデータベースシステム間でデータを移行します。

  • データウェアハウスおよびデータレイクの構築

    オンライントランザクション処理 (OLTP) データベースから、データウェアハウスまたはデータレイクのオペレーショナルデータストア (ODS) レイヤーへ、定期的に完全データまたは増分データを同期します。このデータは、その後のデータ分析の基盤となります。

  • バックアップとディザスタリカバリ

    • 本番データベースの完全データを、HDFS や Object Storage Service (OSS) などのコスト効率の高いストレージメディアへ定期的にバックアップします。

    • クロスリージョンまたはクロス可用性ゾーン(Availability Zone)におけるディザスタリカバリ対策を実装します。

主な機能

データベース全体のバッチ同期は、以下の主要機能を提供します:

image

主な機能

機能

説明

異種データソース間のバッチ同期

バッチ同期は、オンプレミスデータセンターまたは他社クラウドプラットフォームから、MaxCompute、Hologres、Object Storage Service (OSS) などのデータウェアハウスまたはデータレイクへのデータ移行をサポートします。詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。

複雑なネットワーク環境でのデータ同期

バッチ同期は、Alibaba Cloud のデータベース、ECS 上またはオンプレミスデータセンター内の自己管理データベース、および非 Alibaba Cloud のデータベースからのデータ転送をサポートします。開始前に、リソースグループとソース/ターゲットデータソース間のネットワーク接続性を確保してください。構成方法の詳細については、「ネットワーク接続性」をご参照ください。

同期モード

完全同期

ターゲットテーブルまたは指定されたパーティションへの、一括または定期的な完全データ同期をサポートします。

増分同期

タイムスタンプ、パーティション、またはプライマリキーに基づいて、増分同期を1回限りまたはスケジュールに従って実行できます。

完全同期と増分同期の組み合わせ

初回実行時は一括完全データ同期を実行します。

以降の実行では、指定されたパーティションへの定期的な増分データ同期に自動的に切り替わります。

データベースおよびテーブルのマッピング

複数テーブルのバッチ同期

データベース内のすべてのテーブルを同期するか、チェックボックスまたはフィルタールールを用いて特定のテーブルを選択して同期できます。

自動スキーマ作成

単一の構成で、ソースデータベースから数百のテーブルを処理でき、手動操作なしでターゲット側に該当するテーブル構造を自動的に作成します。

柔軟なマッピング

ターゲットデータベースおよびテーブルの命名規則をカスタマイズできます。また、ソースとターゲットのフィールド型間のマッピングを定義することで、ターゲットデータモデルへの適合を実現できます。

スケジューリングおよび依存関係管理

スケジューリング

分、時、日、週、月、年の複数のスケジューリング頻度をサポートします。

多数のテーブルを同時に同期する場合、タスクのキューイングやリソース競合を防ぐため、スケジュール内で実行時間をずらすことを推奨します。

タスク依存関係

データベース全体のタスクおよびその個別のサブタスクの両方を、DataWorks 内の他のタスクの上流依存関係として使用できます。同期タスクが完了すると、その下流タスクが自動的にトリガーされます。

パラメーター対応

スケジューリングパラメーターを用いて増分同期を実装できます。たとえば、${bizdate} を使用して業務日付を表すことができます。

高度なパラメーター

ダーティデータの処理

不正データとは、型不一致や制約違反などのエラーによりターゲットへ書き込めないレコードを指します。デフォルトではこのオプションは false であり、不正データが検出された場合、タスクは失敗します。これを true に設定すると、不正データをすべて無視してタスクを継続します。

リーダーおよびライターの構成

リーダーおよびライターのデータソースに対する最大接続数を構成でき、またデータ書き込み前にターゲットで実行されるクリーンアップポリシーを定義できます。

同時実行数およびレート制限

  • データベースからの読み取りおよび書き込みに対する最大同時接続数を制御できます。

  • ソースまたはターゲットデータソースへの過負荷を防ぐため、データ転送レートを制御できます。レート制限を構成しない場合、タスクはハードウェアがサポートする最大速度で実行されます。

運用管理 (O&M)

実行時介入

タスクの再実行、データのバックフィル、タスクの成功ステータスへの強制変更、タスクの一時停止および再開など、実行時の介入をサポートします。

モニタリングおよびアラート機能

ベースライン、タスクステータス、実行時間のモニタリングルールを構成でき、ルール条件を満たした際にアラートを発行するよう設定できます。

データ品質

タスクをコミットおよびデプロイした後、オペレーションセンターでターゲットテーブル向けのデータ品質モニタリングルールを構成できます。本機能は、AI を活用したルール自動生成および手動構成の両方をサポートします。現在、一部のデータベースタイプのみで利用可能です。詳細については、「Data Quality」をご参照ください。

クイックスタート

データベース全体のバッチ同期タスクを作成するには、「データベース全体のバッチ同期の構成」をご参照ください。

サポートされるデータソース

DataWorks は、MaxCompute、Object Storage Service (OSS)、Elasticsearch などのデータストアを含む、多様なデータソースからのデータベースバッチ移行をサポートしています。以下の表に、サポートされるソースおよびターゲットデータソースを示します。

ソース

宛先

MaxCompute

Data Lake Formation

Hive

Hologres

OSS

OSS-HDFS

Elasticsearch

StarRocks

MySQL