DataWorks の Data Integration は、データベース全体を対象とした効率的なバッチ同期を実現します。この機能により、ソースデータベースからターゲットデータストアへ、すべてまたは選択したテーブルを一度の操作、あるいは定期的なスケジュールで移行できます。完全同期および増分同期の両方をサポートしており、各テーブルごとに個別の同期タスクを作成する必要がなくなります。また、ターゲット側でのテーブルスキーマの自動作成も行うため、データベース移行が大幅に簡素化されます。
適用範囲/利用シーン
データ移行およびクラウド採用
MySQL や Oracle などのデータベースを、オンプレミスのデータセンターからクラウドベースのデータウェアハウスまたはデータレイクへ移行します。
異なるクラウドプラットフォーム間、または異なるデータベースシステム間でデータを移行します。
データウェアハウスおよびデータレイクの構築
オンライントランザクション処理(OLTP)データベースから、データウェアハウスまたはデータレイクの運用データストア(ODS)層へ、定期的に完全または増分データを移行します。このデータは、後続のデータ分析の基盤となります。
データバックアップおよびディザスタリカバリ
本番環境のデータベース全体を、HDFS や Object Storage Service (OSS) などのコスト効率の高いストレージへ定期的にバックアップします。
異なるリージョンまたは可用性ゾーン間でディザスタリカバリソリューションを実装します。
主な機能
以下の表では、データベース全体を対象としたバッチ同期の主な機能について説明します。
主な機能 | 機能 | 説明 |
異種データソース間のバッチ同期 | ― | バッチ同期は、オンプレミスデータセンターまたは他のクラウドプラットフォームから MaxCompute、Hologres、Object Storage Service (OSS) などのデータウェアハウスやデータレイクへのデータ移行をサポートします。詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。 |
複雑なネットワーク環境におけるデータ同期 | ― | バッチ同期は、ApsaraDB、オンプレミスデータセンター、Elastic Compute Service (ECS) インスタンス上に自社ホストされたデータベース、およびサードパーティクラウド上のデータベースなど、さまざまな環境からのデータ転送をサポートします。タスクの構成を行う前に、リソースグループとソースおよびターゲットのデータソース間のネットワーク接続性を確保してください。詳細については、「ネットワーク接続性」をご参照ください。 |
同期モード | 完全同期 | ターゲットテーブルまたは指定されたパーティションに対して、ワンタイムまたは定期的な完全データ同期をサポートします。 |
増分同期 | 時間、パーティション、またはプライマリキーに基づく、ワンタイムまたは定期的な増分データ同期をサポートします。 | |
完全+増分の組み合わせ同期 | 初回実行: 1 回限りの完全なデータ同期を実行します。 以降の実行: 指定されたパーティションへの定期的な増分同期に自動的に切り替わります。 | |
データベースおよびテーブルのマッピング | バッチテーブル同期 | データベース内のすべてのテーブルを同期することをサポートします。また、チェックボックスによる選択やフィルタリングルールの設定によって、特定のテーブルを選択することも可能です。 |
自動スキーマ作成 | 単一の構成で、ソースデータベースから数百のテーブルを一括処理できます。この機能は、ターゲット側でテーブルスキーマを自動的に作成するため、手動介入の必要がありません。 | |
柔軟なマッピング | ターゲットデータベースおよびテーブルのカスタム命名ルールをサポートします。また、ソースとターゲット間のフィールド型についても、ターゲットのデータモデルに適合させるためのカスタムマッピングを定義できます。 | |
スケジューリングおよび依存関係管理 | スケジューリング | 分単位、時単位、日単位、週単位、月単位、年単位でのスケジューリングをサポートします。 一度に多数のテーブルを同期している場合、タスクの蓄積とリソース競合を防ぐために、スケジューリング構成で実行時間をずらすことを推奨します。 |
タスク依存関係 | DataWorks では、データベース全体の メインタスク および個々のテーブルレベルの サブタスク の両方を、他の開発タスクの上流依存関係として使用できます。テーブル同期タスクが完了すると、DataWorks は自動的にその下流の開発タスクをトリガーします。 | |
パラメーター対応 | 増分同期におけるスケジューリングパラメーターの使用をサポートします。たとえば、ビジネス日付を表すために | |
高度なパラメーター | ダーティデータの取り扱い | 不正データとは、型の不一致や制約違反などのエラーによりターゲットへ書き込めないレコードを指します。デフォルト値は false であり、不正データが発生した場合にタスクが失敗します。true に設定すると、すべての不正データが無視されます。 |
リーダーおよびライターの構成 | リーダー(ソース)およびライター(ターゲット)それぞれの最大接続数を構成できます。また、データ書き込み前にターゲット側でクリーンアップポリシーを定義することも可能です。 | |
同時実行制御およびレート制限 |
| |
運用・保守(O&M) | 手動介入 | Rerun(再実行)、データバックフィル、ステータスを「成功」とマーク、タスクのフリーズおよび復元など、手動介入操作を実行できます。 |
監視およびアラート通知 | ベースライン、タスクステータス、実行時間に対する監視ルールを構成でき、ルールがトリガーされた際にアラートを送信できます。 | |
Data Quality | タスクのコミットおよびデプロイ後に、オペレーションセンターでターゲットテーブルのデータ品質監視ルールを構成できます。ルールは手動で設定するか、AI 機能による自動生成を利用できます。現在、品質ルール監視は特定のデータベースタイプのみで利用可能です。詳細については、「Data Quality」をご参照ください。 |
クイックスタート
データベース全体を対象としたバッチ同期タスクを作成するには、「データベース全体のバッチ同期の構成」をご参照ください。
サポートされるデータソース
DataWorks では、MaxCompute、Object Storage Service (OSS)、Elasticsearch など、さまざまなデータストアへデータベース全体の移行をサポートしています。サポートされるデータソースを以下に示します。
ソース | 宛先 |
MaxCompute | |
Data Lake Formation | |
Hologres | |
Object Storage Service (OSS) | |
Elasticsearch | |
StarRocks |