Data Integration のオフライン同期機能は、Reader プラグインと Writer プラグインを提供します。ソースデータソースとターゲットデータソースを定義し、DataWorks のスケジューリングパラメーターを使用して、ソースデータベースからターゲットデータベースに全量データまたは増分データを同期できます。このトピックでは、オフライン同期の機能について説明します。
コア機能
オフライン同期の機能を次の図に示します。
機能 | 説明 |
異種データソース間のデータ同期 | Data Integration は、リレーショナルデータベース、非構造化ストレージ、ビッグデータストレージ、メッセージキューなど、50 種類以上のデータソースタイプをサポートしています。ソースデータソースとターゲットデータソースを定義し、提供されている Reader プラグインと Writer プラグインを使用して、構造化データソースまたは半構造化データソース間でデータを転送できます。詳細については、「サポートされているデータソースと同期ソリューション」をご参照ください。 |
複雑なネットワーク環境でのデータ同期 | オフライン同期は、ApsaraDB、オンプレミスのデータセンター、ECS 上の自己管理データベース、および Alibaba Cloud 外部のデータベースのデータ同期をサポートしています。同期を構成する前に、リソースグループとソースおよびターゲットの両方の間のネットワーク接続を確保してください。構成の詳細については、「ネットワーク接続ソリューション」をご参照ください。 |
同期シナリオ | 1. サポートされている同期モード
説明 スケジューリングパラメーターの詳細については、「Data Integration におけるスケジューリングパラメーターの一般的なシナリオ」および「サポートされているスケジューリングパラメーターのフォーマット」をご参照ください。 2. サポートされているソース構造
|
構成メソッド | Data Integration のオフライン同期タスクは、次の方法で構成できます。
説明 タスク構成機能の詳細については、「機能概要」をご参照ください。 |
オフライン同期タスクの運用保守 |
|
機能概要
機能 | 説明 |
完全データまたは増分データの同期 | オフライン同期タスクで [データフィルタリング] を構成し、スケジューリングパラメーター を使用して、全量または増分データ同期を実行します。増分同期の構成はプラグインによって異なります。増分データ同期の構成の詳細については、「シナリオ: 増分オフライン同期タスクの設定」をご参照ください。 |
フィールドマッピング | フィールド間のマッピングルールを確立して、ソースデータを対応するターゲットフィールドに書き込みます。構成中に、ソースフィールドとターゲットフィールドのデータ型に互換性があることを確認してください。
|
ジョブのレート制限制御 |
|
分散タスク実行 | 分散実行をサポートするデータソースは、タスクセグメンテーション技術を使用して、同期タスクを複数のノードに分散して同時実行できます。 これにより、同期速度がクラスターサイズに比例して線形にスケールし、単一ノードのパフォーマンスボトルネックを解消できます。このパターンは、高スループット、低レイテンシの同期シナリオに特に役立ちます。また、アイドル状態のクラスターリソースを効率的にスケジュールし、ハードウェア使用率を大幅に向上させます。 |
ダーティデータポリシー | ダーティデータ とは、型の競合や制約違反などの例外が原因でターゲットへの書き込みに失敗したレコードを指します。オフライン同期は、ダーティデータポリシーの定義をサポートしています。許容できるダーティデータレコードの数と、それらがタスクに与える影響を定義できます。
|
タイムゾーン | ソースとターゲットが異なるタイムゾーンにある場合は、ソースのタイムゾーンを設定して、同期中にタイムゾーン変換を実行します。 |
インテリジェントなデータ処理 | DataWorks は、データ同期中のデータ処理機能をサポートしています。これにより、ソースデータを変換および処理してからターゲットに書き込むことができます: 文字列の置換: DataWorks のオフライン同期タスクには、組み込みの文字列置換機能があります。これにより、データをランディングしたり、追加の抽出・変換・書き出し (ETL) ステップを必要とせずに、データ転送中に軽量なデータ変換を実行できます。 AI 支援処理: データ同期中に、大規模な AI モデルを統合して、ソースからの自然言語に対してセマンティック分析、感情分析、その他の分析を実行できます。処理された結果は、ターゲットテーブルに直接書き込まれます。 データベクトル化: ソースデータを抽出し、ベクトル埋め込みを作成し、それらをベクトルデータベースに書き込みます。 |
その他の操作
タスクの作成方法の詳細については、以下をご参照ください: