DataWorks Data Integration は、データベースのバッチ同期を簡素化するソリューションを提供します。この機能により、ソースデータベースからターゲットデータストアへ、全テーブルまたは選択したテーブルを、一括で移行するか、定期スケジュールに従って繰り返し移行することが可能です。同期方式には完全同期および増分同期の両方がサポートされています。本機能では、各テーブルごとに個別にタスクを作成する必要がなく、またターゲットテーブルのスキーマも自動的に作成されるため、データベース全体の移行プロセスが大幅に効率化されます。
ユースケース
データ移行とクラウド採用
MySQL や Oracle などのオンプレミスデータベースを、クラウド上のデータウェアハウスまたはデータレイクへ移行します。
異なるクラウドプラットフォーム間、または異なるデータベースシステム間でデータを移行します。
データウェアハウスおよびデータレイクの構築
オンライントランザクション処理 (OLTP) データベースから、データウェアハウスまたはデータレイクのオペレーショナルデータストア (ODS) レイヤーへ、定期的に完全データまたは増分データを同期します。このデータは、その後のデータ分析の基盤となります。
バックアップとディザスタリカバリ
本番データベースの完全データを、HDFS や Object Storage Service (OSS) などのコスト効率の高いストレージメディアへ定期的にバックアップします。
クロスリージョンまたはクロス可用性ゾーン(Availability Zone)におけるディザスタリカバリ対策を実装します。
主な機能
データベース全体のバッチ同期は、以下の主要機能を提供します:
主な機能 | 機能 | 説明 |
異種データソース間のバッチ同期 | ― | バッチ同期は、オンプレミスデータセンターまたは他社クラウドプラットフォームから、MaxCompute、Hologres、Object Storage Service (OSS) などのデータウェアハウスまたはデータレイクへのデータ移行をサポートします。詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。 |
複雑なネットワーク環境でのデータ同期 | ― | バッチ同期は、Alibaba Cloud のデータベース、ECS 上またはオンプレミスデータセンター内の自己管理データベース、および非 Alibaba Cloud のデータベースからのデータ転送をサポートします。開始前に、リソースグループとソース/ターゲットデータソース間のネットワーク接続性を確保してください。構成方法の詳細については、「ネットワーク接続性」をご参照ください。 |
同期モード | 完全同期 | ターゲットテーブルまたは指定されたパーティションへの、一括または定期的な完全データ同期をサポートします。 |
増分同期 | タイムスタンプ、パーティション、またはプライマリキーに基づいて、増分同期を1回限りまたはスケジュールに従って実行できます。 | |
完全同期と増分同期の組み合わせ | 初回実行時は一括完全データ同期を実行します。 以降の実行では、指定されたパーティションへの定期的な増分データ同期に自動的に切り替わります。 | |
データベースおよびテーブルのマッピング | 複数テーブルのバッチ同期 | データベース内のすべてのテーブルを同期するか、チェックボックスまたはフィルタールールを用いて特定のテーブルを選択して同期できます。 |
自動スキーマ作成 | 単一の構成で、ソースデータベースから数百のテーブルを処理でき、手動操作なしでターゲット側に該当するテーブル構造を自動的に作成します。 | |
柔軟なマッピング | ターゲットデータベースおよびテーブルの命名規則をカスタマイズできます。また、ソースとターゲットのフィールド型間のマッピングを定義することで、ターゲットデータモデルへの適合を実現できます。 | |
スケジューリングおよび依存関係管理 | スケジューリング | 分、時、日、週、月、年の複数のスケジューリング頻度をサポートします。 多数のテーブルを同時に同期する場合、タスクのキューイングやリソース競合を防ぐため、スケジュール内で実行時間をずらすことを推奨します。 |
タスク依存関係 | データベース全体のタスクおよびその個別のサブタスクの両方を、DataWorks 内の他のタスクの上流依存関係として使用できます。同期タスクが完了すると、その下流タスクが自動的にトリガーされます。 | |
パラメーター対応 | スケジューリングパラメーターを用いて増分同期を実装できます。たとえば、 | |
高度なパラメーター | ダーティデータの処理 | 不正データとは、型不一致や制約違反などのエラーによりターゲットへ書き込めないレコードを指します。デフォルトではこのオプションは |
リーダーおよびライターの構成 | リーダーおよびライターのデータソースに対する最大接続数を構成でき、またデータ書き込み前にターゲットで実行されるクリーンアップポリシーを定義できます。 | |
同時実行数およびレート制限 |
| |
運用管理 (O&M) | 実行時介入 | タスクの再実行、データのバックフィル、タスクの成功ステータスへの強制変更、タスクの一時停止および再開など、実行時の介入をサポートします。 |
モニタリングおよびアラート機能 | ベースライン、タスクステータス、実行時間のモニタリングルールを構成でき、ルール条件を満たした際にアラートを発行するよう設定できます。 | |
データ品質 | タスクをコミットおよびデプロイした後、オペレーションセンターでターゲットテーブル向けのデータ品質モニタリングルールを構成できます。本機能は、AI を活用したルール自動生成および手動構成の両方をサポートします。現在、一部のデータベースタイプのみで利用可能です。詳細については、「Data Quality」をご参照ください。 |
クイックスタート
データベース全体のバッチ同期タスクを作成するには、「データベース全体のバッチ同期の構成」をご参照ください。
サポートされるデータソース
DataWorks は、MaxCompute、Object Storage Service (OSS)、Elasticsearch などのデータストアを含む、多様なデータソースからのデータベースバッチ移行をサポートしています。以下の表に、サポートされるソースおよびターゲットデータソースを示します。
ソース | 宛先 |
MaxCompute | |
Data Lake Formation | |
Hive | |
Hologres | |
OSS | |
OSS-HDFS | |
Elasticsearch | |
StarRocks | |
MySQL |