DataWorks Data Integration は、リアルタイムデータベース同期のための強力なソリューションを提供します。このソリューションにより、完全同期と増分同期を組み合わせた統合された低レイテンシープロセスで、ソースからターゲットへデータベース全体または特定のテーブルをレプリケートできます。リアルタイムコンピューティングエンジンを搭載したこの機能は、初期の完全データロードを自動化し、継続的なChange Data Capture (CDC) へとシームレスに移行します。この機能は、リアルタイムデータベースのクラウド移行や、リアルタイムデータウェアハウスのOperational Data Store (ODS) レイヤー構築などのシナリオに対応するワンストップソリューションを提供します。
ユースケース
リアルタイムデータウェアハウスのODSレイヤー構築
MySQL や Oracle などのオンライントランザクション処理 (OLTP) データベースから、Hologres や StarRocks などのリアルタイムデータウェアハウスへデータをリアルタイムで同期します。これにより、ビジネスインテリジェンス (BI) ダッシュボード、アドホッククエリ、その他のアプリケーションにデータサポートを提供します。
リアルタイムデータベースレプリケーションとディザスタリカバリの有効化
2つのデータベースインスタンス間でリアルタイムレプリケーションタスクを作成します。これは、読み書き分離、読み取り専用インスタンスの作成、または同種または異種データベースのリアルタイムディザスタリカバリの実装に使用できます。
リアルタイムデータ移行のクラウドへの実行
オンプレミスデータセンターからクラウドデータベースサービスへのデータベースのスムーズな移行を可能にします。
リアルタイムデータレイクまたはデータミドルプラットフォームの構築
複数のビジネスデータベースからリアルタイム変更データを、Object Storage Service (OSS) や Data Lake Formation (DLF) などのデータレイク、または MaxCompute や Hologres などのデータウェアハウスに収集し、企業向けの統合されたリアルタイムデータミドルプラットフォームを構築します。
コア機能
リアルタイムデータベース同期のコア機能は次のとおりです。
コア機能 | 特定の機能 | 説明 |
異種データソース間のデータベース同期 | - | オンプレミスデータセンターまたはサードパーティクラウドから、MaxCompute、Hologres、Kafka などのデータウェアハウスまたはデータレイクへデータベース全体を同期できます。詳細については、「サポートされているデータソースと同期ソリューション」をご参照ください。 |
複雑なネットワーク環境でのデータ同期 | - | リアルタイム同期は、Alibaba Cloudデータベース、オンプレミスデータセンター内のデータベース、ECS上の自己管理データベース、およびサードパーティクラウドデータベースをサポートしています。開始する前に、リソースグループがソースとターゲットに接続できることを確認してください。詳細については、「ネットワーク接続の構成」をご参照ください。 |
同期シナリオ | 完全同期 | ソースからターゲットテーブルへすべてのデータを単一操作で同期します。 |
増分同期 | メッセージキューやCDCログなどのソースからストリーミングデータをキャプチャし、そのデータをリアルタイムでターゲットテーブルまたは指定されたパーティションに書き込みます。 | |
完全および増分同期 |
| |
タスク構成 | バッチテーブル同期 | データベース内のすべてのテーブルを同期するか、チェックボックスを使用するか、フィルタールールを構成することで特定のテーブルを選択できます。 |
自動テーブル作成 | 単一タスク構成でソースデータベース内の数百のテーブルを処理します。システムはターゲットにテーブルスキーマを自動的に作成するため、手動介入は不要です。 | |
柔軟なマッピング | ターゲットデータベースとテーブルのカスタム命名ルールを定義できます。また、ターゲットのデータモデルに対応するために、ソースとターゲット間のフィールドデータ型のカスタムマッピングを定義することもできます。 | |
DDL変更認識 (一部のタスクでサポート) | ソーステーブルスキーマが変更された場合 (たとえば、テーブルまたは列が作成または削除された場合)、同期タスクを次のいずれかのポリシーで応答するように構成できます。
| |
DMLルール構成 | DMLメッセージ処理を使用して、 | |
動的パーティショニング | ターゲットテーブルがパーティションテーブルの場合、ソースフィールドまたはソース変更のイベント時間に基づいて動的パーティショニングを有効にできます。 重要 多数のパーティションを作成すると、同期パフォーマンスに影響を与える可能性があります。1日に1,000を超える新しいパーティションが追加された場合、パーティション作成は失敗し、タスクは終了します。 | |
タスクO&M | オンライン介入 | タスクはチェックポイントからの再開をサポートしており、中断後に特定の時点から再開してデータ損失がないことを保証できます。また、タスクを再実行して、データのバックフィル、異常の修正、またはロジック変更の検証を行い、データ整合性と業務継続性を確保することもできます。 |
監視とアラート | ビジネスレイテンシー、タスクステータス、フェールオーバー、およびDDL通知の監視ルールを定義し、これらのルールに基づいてアラートがトリガーされるように構成できます。 | |
リソース最適化 | DataWorks Data Integration は、Serverlessリソースグループに基づいており、タスクレベルで弾力的なスケーリング機能を提供します。 また、時間ベースの弾力的なポリシーを構成して、ピーク時とオフピーク時の営業時間など、異なる期間のタスクに異なるリソース仕様をプリセットすることもできます。 |
クイックスタート
リアルタイムデータベース同期タスクを作成するには、「リアルタイムデータベース同期タスクの構成」をご参照ください。
サポートされているデータソース
ソース | 宛先 |
MaxCompute | |
AnalyticDB for MySQL (V3.0) | |
ApsaraDB for OceanBase | |
Data Lake Formation (DLF) | |
DataHub | |
Doris | |
Elasticsearch | |
Hologres | |
Kafka | |
| LogHub |
Object Storage Service (OSS) | |
OSS-HDFS | |
SelectDB | |
StarRocks | |
Lindorm |