DataWorks データ統合は、リアルタイムデータベース同期のための強力なソリューションを提供します。完全同期と増分同期の統合アプローチを使用して、ソースから送信先のデータストアにデータベース全体または特定のテーブルをレプリケートします。リアルタイム計算エンジンを搭載したこの機能は、初回の完全データロードを自動的に実行し、その後、増分データ変更 (変更データキャプチャ (CDC)) を継続的にキャプチャします。これにより、クラウドへのリアルタイムデータベース移行や、リアルタイムデータウェアハウスの ODS レイヤーの構築などのユースケースが簡素化されます。
ユースケース
-
データウェアハウス用のリアルタイム ODS レイヤーの構築
MySQL や Oracle などのオンライン業務データベースから、Hologres や StarRocks などのリアルタイムデータウェアハウスにデータをリアルタイムで同期します。これにより、ダッシュボードやアドホッククエリシナリオなどのダウンストリームアプリケーションに最新のデータを提供します。
-
ディザスタリカバリのためのリアルタイムデータベースレプリケーション
2 つのデータベースインスタンス間にリアルタイムのレプリケーションリンクを確立します。これを使用して、読み書き分離、読み取り専用レプリカの作成、または同種・異種データベースのリアルタイムディザスタリカバリ (DR) を実装できます。
-
クラウドへのリアルタイムデータ移行
オンプレミスデータセンターからクラウドデータベースサービスにデータベースをシームレスに移行します。
-
リアルタイムデータレイクまたはデータミドルプラットフォームの構築
複数の業務データベースからリアルタイムの変更データを、Object Storage Service (OSS) や Data Lake Formation (DLF) などの集中管理されたデータレイク、または MaxCompute や Hologres などのデータウェアハウスに収集します。これにより、企業向けの統一されたリアルタイムデータミドルプラットフォームを構築できます。
主要機能
リアルタイムデータベース同期の主要機能は次のとおりです:
|
主要機能 |
機能 |
説明 |
|
異種データソース間のデータベース全体の同期 |
- |
リアルタイムデータベース同期は、オンプレミスデータセンターや他のクラウドプラットフォームから、MaxCompute、Hologres、Kafka などのデータウェアハウスやデータレイクにデータを移行します。詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。 |
|
複雑なネットワーク環境でのデータ同期 |
- |
リアルタイム同期は、Alibaba Cloud データベースサービス、オンプレミスデータセンター、ECS 上の自己管理データベース、他のクラウドプロバイダーのデータベースなど、さまざまな環境のデータをサポートします。開始する前に、リソースグループとソースおよび送信先との間のネットワーク接続を確認してください。詳細については、「ネットワーク接続の設定」をご参照ください。 |
|
同期シナリオ |
完全同期 |
ソースから送信先テーブルへの全データの 1 回限りの同期を実行します。 |
|
増分同期 |
メッセージキューや CDC ログなどのソースからストリーミングデータをリアルタイムでキャプチャし、送信先テーブルまたは指定されたパーティションに書き込みます。 |
|
|
完全同期と増分同期の統合 |
|
|
|
タスク設定 |
テーブルの一括同期 |
データベース内のすべてのテーブルを同期することも、チェックボックスを使用したりフィルター ルールを設定したりして、テーブルのサブセットを正確に選択することもできます。 |
|
テーブルの自動作成 |
1 つの設定でソースデータベース内の数百のテーブルを処理できます。システムは対応するテーブルスキーマを送信先に自動的に作成するため、手動での介入は不要です。 |
|
|
柔軟なマッピング |
送信先のデータベースとテーブルにカスタムの命名規則を定義できます。また、ソースと送信先間のデータ型のマッピングをカスタマイズして、さまざまなデータモデルに適応させることもできます。 |
|
|
DDL 変更の検知 (一部のパスでサポート) |
ソースのテーブルスキーマが変更された場合 (テーブルや列の作成や削除など)、同期タスクを次のいずれかの方法で応答するように設定できます:
|
|
|
DML ルール |
DML ルールは、ソースからの変更データ ( |
|
|
動的パーティション分割 |
送信先テーブルがパーティション分割されている場合、ソースフィールドまたはソースイベントのタイムスタンプに基づいて動的パーティション分割を有効にできます。 重要
過剰な数のパーティションを作成すると、同期パフォーマンスが低下する可能性があります。1 日に 1,000 を超える新しいパーティションが作成されると、パーティションの作成は失敗し、タスクは終了します。 |
|
|
タスクの O&M |
オンラインでの介入 |
チェックポイントからの再開により、中断後にタスクを特定の時点から再開できるため、データ損失を防ぐことができます。また、データバックフィル、例外処理、ロジック検証のためにタスクを再実行して、データ整合性と業務継続性を維持することもできます。 |
|
監視とアラート |
ビジネスレイテンシー、タスクステータス、フェールオーバーイベント、DDL 通知の監視ルールを設定できます。これらのルールがトリガーされると、アラートを送信できます。 |
|
|
リソースの最適化 |
DataWorks データ統合は、サーバーレスリソースグループ に基づくタスクレベルの弾性スケーリングを提供します。 さらに、時間ベースの弾性ポリシーを設定して、ビジネスのピーク時とオフピーク時など、さまざまな期間にタスクのリソース仕様を自動的に調整できます。 |
はじめに
リアルタイムデータベース同期タスクを作成するには、「リアルタイムデータベース同期タスクの設定」をご参照ください。
サポートされるデータソース
|
ソース |
送信先 |
|
MaxCompute |
|
|
AnalyticDB for MySQL (V3.0) |
|
|
ApsaraDB for OceanBase |
|
|
Data Lake Formation (DLF) |
|
|
DataHub |
|
|
Doris |
|
|
Elasticsearch |
|
|
Hologres |
|
|
Kafka |
|
|
LogHub |
|
Object Storage Service (OSS) |
|
|
OSS-HDFS |
|
|
SelectDB |
|
|
StarRocks |
|
|
Lindorm |