DTS によるフルデータベースリアルタイム CDC 同期の有効化 - DataWorks

DataWorks データ統合は、リアルタイムデータベース同期のための強力なソリューションを提供します。完全同期と増分同期の統合アプローチを使用して、ソースから送信先のデータストアにデータベース全体または特定のテーブルをレプリケートします。リアルタイム計算エンジンを搭載したこの機能は、初回の完全データロードを自動的に実行し、その後、増分データ変更 (変更データキャプチャ (CDC)) を継続的にキャプチャします。これにより、クラウドへのリアルタイムデータベース移行や、リアルタイムデータウェアハウスの ODS レイヤーの構築などのユースケースが簡素化されます。

ユースケース

データウェアハウス用のリアルタイム ODS レイヤーの構築

MySQL や Oracle などのオンライン業務データベースから、Hologres や StarRocks などのリアルタイムデータウェアハウスにデータをリアルタイムで同期します。これにより、ダッシュボードやアドホッククエリシナリオなどのダウンストリームアプリケーションに最新のデータを提供します。
ディザスタリカバリのためのリアルタイムデータベースレプリケーション

2 つのデータベースインスタンス間にリアルタイムのレプリケーションリンクを確立します。これを使用して、読み書き分離、読み取り専用レプリカの作成、または同種・異種データベースのリアルタイムディザスタリカバリ (DR) を実装できます。
クラウドへのリアルタイムデータ移行

オンプレミスデータセンターからクラウドデータベースサービスにデータベースをシームレスに移行します。
リアルタイムデータレイクまたはデータミドルプラットフォームの構築

複数の業務データベースからリアルタイムの変更データを、Object Storage Service (OSS) や Data Lake Formation (DLF) などの集中管理されたデータレイク、または MaxCompute や Hologres などのデータウェアハウスに収集します。これにより、企業向けの統一されたリアルタイムデータミドルプラットフォームを構築できます。

主要機能

リアルタイムデータベース同期の主要機能は次のとおりです：

主要機能	機能	説明
異種データソース間のデータベース全体の同期	-	リアルタイムデータベース同期は、オンプレミスデータセンターや他のクラウドプラットフォームから、MaxCompute、Hologres、Kafka などのデータウェアハウスやデータレイクにデータを移行します。詳細については、「サポートされるデータソースと同期ソリューション」をご参照ください。
複雑なネットワーク環境でのデータ同期	-	リアルタイム同期は、Alibaba Cloud データベースサービス、オンプレミスデータセンター、ECS 上の自己管理データベース、他のクラウドプロバイダーのデータベースなど、さまざまな環境のデータをサポートします。開始する前に、リソースグループとソースおよび送信先との間のネットワーク接続を確認してください。詳細については、「ネットワーク接続の設定」をご参照ください。
同期シナリオ	完全同期	ソースから送信先テーブルへの全データの 1 回限りの同期を実行します。
	増分同期	メッセージキューや CDC ログなどのソースからストリーミングデータをリアルタイムでキャプチャし、送信先テーブルまたは指定されたパーティションに書き込みます。
	完全同期と増分同期の統合	自動完全初期化：タスクが初めて開始されると、ソースデータベーステーブルから既存のすべてのデータを自動的に読み取り、送信先に書き込みます。増分モードへのシームレスな移行：完全ロードが完了すると、タスクは自動的に CDC モードに切り替わり、ソースからの `Insert`、`Update`、`Delete` 操作をミリ秒レベルのレイテンシーで継続的にキャプチャして送信先に適用します。
タスク設定	テーブルの一括同期	データベース内のすべてのテーブルを同期することも、チェックボックスを使用したりフィルタールールを設定したりして、テーブルのサブセットを正確に選択することもできます。
	テーブルの自動作成	1 つの設定でソースデータベース内の数百のテーブルを処理できます。システムは対応するテーブルスキーマを送信先に自動的に作成するため、手動での介入は不要です。
	柔軟なマッピング	送信先のデータベースとテーブルにカスタムの命名規則を定義できます。また、ソースと送信先間のデータ型のマッピングをカスタマイズして、さまざまなデータモデルに適応させることもできます。
	DDL 変更の検知 (一部のパスでサポート)	ソースのテーブルスキーマが変更された場合 (テーブルや列の作成や削除など)、同期タスクを次のいずれかの方法で応答するように設定できます： Normal：スキーマの変更を送信先に自動的に適用します。 Alert：同期を一時停止し、アラートを送信して、手動での介入を待ちます。 Error：タスクを停止し、失敗としてマークします。
	DML ルール	DML ルールは、ソースからの変更データ (`Insert`、`Update`、`Delete` 操作) が送信先に書き込まれる前にどのように処理されるかを詳細に制御します。これにより、さまざまなデータ処理操作の最終的な処理ポリシーを定義できます。
	動的パーティション分割	送信先テーブルがパーティション分割されている場合、ソースフィールドまたはソースイベントのタイムスタンプに基づいて動的パーティション分割を有効にできます。重要過剰な数のパーティションを作成すると、同期パフォーマンスが低下する可能性があります。1 日に 1,000 を超える新しいパーティションが作成されると、パーティションの作成は失敗し、タスクは終了します。
タスクの O&M	オンラインでの介入	チェックポイントからの再開により、中断後にタスクを特定の時点から再開できるため、データ損失を防ぐことができます。また、データバックフィル、例外処理、ロジック検証のためにタスクを再実行して、データ整合性と業務継続性を維持することもできます。
	監視とアラート	ビジネスレイテンシー、タスクステータス、フェールオーバーイベント、DDL 通知の監視ルールを設定できます。これらのルールがトリガーされると、アラートを送信できます。
	リソースの最適化	DataWorks データ統合は、サーバーレスリソースグループに基づくタスクレベルの弾性スケーリングを提供します。さらに、時間ベースの弾性ポリシーを設定して、ビジネスのピーク時とオフピーク時など、さまざまな期間にタスクのリソース仕様を自動的に調整できます。

はじめに

リアルタイムデータベース同期タスクを作成するには、「リアルタイムデータベース同期タスクの設定」をご参照ください。

サポートされるデータソース

ソース	送信先
ApsaraDB for OceanBase MongoDB MySQL Oracle PolarDB PolarDB-X 2.0 PostgreSQL	MaxCompute
ApsaraDB for OceanBase MySQL Oracle PolarDB PostgreSQL	AnalyticDB for MySQL (V3.0)
MySQL	ApsaraDB for OceanBase
ApsaraDB for OceanBase MongoDB MySQL PolarDB PostgreSQL	Data Lake Formation (DLF)
MySQL Oracle PolarDB	DataHub
MySQL PolarDB PostgreSQL	Doris
MySQL PolarDB	Elasticsearch
ApsaraDB for OceanBase MongoDB MySQL Oracle PolarDB PolarDB-X 2.0 PostgreSQL	Hologres
MySQL PolarDB PostgreSQL	Kafka
MySQL MySQL (シャーディングされた) PolarDB (シャーディングされた)	LogHub
MySQL PolarDB	Object Storage Service (OSS)
MySQL	OSS-HDFS
MySQL PolarDB PostgreSQL	SelectDB
MySQL Oracle PolarDB	StarRocks
PostgreSQL	Lindorm