すべてのプロダクト
Search
ドキュメントセンター

DataWorks:オフライン同期の機能

最終更新日:Nov 15, 2025

Data Integration のオフライン同期機能は、Reader プラグインと Writer プラグインを提供します。ソースデータソースとターゲットデータソースを定義し、DataWorks のスケジューリングパラメーターを使用して、ソースデータベースからターゲットデータベースに全量データまたは増分データを同期できます。このトピックでは、オフライン同期の機能について説明します。

コア機能

オフライン同期の機能を次の図に示します。

機能

説明

異種データソース間のデータ同期

Data Integration は、リレーショナルデータベース、非構造化ストレージ、ビッグデータストレージ、メッセージキューなど、50 種類以上のデータソースタイプをサポートしています。ソースデータソースとターゲットデータソースを定義し、提供されている Reader プラグインと Writer プラグインを使用して、構造化データソースまたは半構造化データソース間でデータを転送できます。詳細については、「サポートされているデータソースと同期ソリューション」をご参照ください。

複雑なネットワーク環境でのデータ同期

オフライン同期は、ApsaraDB、オンプレミスのデータセンター、ECS 上の自己管理データベース、および Alibaba Cloud 外部のデータベースのデータ同期をサポートしています。同期を構成する前に、リソースグループとソースおよびターゲットの両方の間のネットワーク接続を確保してください。構成の詳細については、「ネットワーク接続ソリューション」をご参照ください。

同期シナリオ

1. サポートされている同期モード

  • 定期的な全量同期: ソーステーブルのデータでターゲットテーブルを定期的に上書きします。このモードは、全量更新シナリオに適しています。

  • 定期的な増分同期: ソーステーブルから新規または変更されたデータのみを毎日または毎時で同期します。これは、データフィルタリング のための WHERE 句とともに、${bizdate} などの組み込みの スケジューリングパラメーター を使用して実現されます。これにより、指定されたデータのみがプルされ、対応する時間パーティションに書き込まれるようになります。詳細については、「シナリオ: 増分オフライン同期タスクの設定」をご参照ください。

  • 既存データのバックフィル: 一度に大量の既存データをバックフィルするには、オペレーションセンターの [データバックフィル] 機能を使用できます。これにより、同期タスクをバッチで実行して、既存データを効率的にアーカイブできます。

2. サポートされているソース構造

  • 単一テーブルから単一テーブルへ: これは最も基本的な同期メソッドです。1 つのソーステーブルから 1 つのターゲットテーブルにデータを同期します。

  • シャーディングされたデータベースとテーブルから単一テーブルへ:

    • order_01order_02 などの複数の物理テーブルからデータを自動的に集約し、単一のターゲットテーブルにデータを書き込みます。

    • サポートされているデータソースには、MySQL、SQL Server、Oracle、PostgreSQL、PolarDB、AnalyticDB があります。詳細については、「シャーディングされたデータベースとテーブルの同期」をご参照ください。

構成メソッド

Data Integration のオフライン同期タスクは、次の方法で構成できます。

  • コードレス UI: ビジュアルウィザードを使用して、ステップバイステップで構成を完了できます。この方法は習得が容易で、すぐに使い始めるのに適しています。ただし、一部の高度な機能は利用できません。

  • コードエディター: JSON スクリプトを使用して、同期ロジックを直接定義できます。この方法は高度な使用に適しており、詳細な制御のためのより複雑な構成をサポートしています。

  • OpenAPI を使用した作成: OpenAPI を通じてタスクのライフサイクル全体を管理できます。これにより、プログラムによる操作がサポートされます。API の詳細については、「」をご参照ください。

説明

タスク構成機能の詳細については、「機能概要」をご参照ください。

オフライン同期タスクの運用保守

  • 監視とアラート: オフライン同期タスクの実行ステータスを監視できます。これには、タスクが完了しない、エラーが発生する、または完了するなどのシナリオのアラートが含まれます。アラートは、メール、ショートメッセージ、電話、DingTalk グループチャットボット、および Webhook で受信者に送信できます。

  • Data Quality: タスクが送信されて公開された後、オペレーションセンターでターゲットテーブルのデータ品質監視ルールを構成できます。現在、一部のデータベースタイプのみがデータ品質監視ルールをサポートしています。

  • データソース環境の分離: 単一のデータソース名を、開発者環境と本番環境の 2 つの独立した構成にバインドできます。タスクは実行中に環境に基づいてデータソースを自動的に切り替えます。 開発者環境は開発とデバッグに使用され、本番環境は本番スケジューリングに使用されます。これにより、テスト操作が誤ってオンラインデータに影響を与えるのを防ぎます。

機能概要

機能

説明

完全データまたは増分データの同期

オフライン同期タスクで [データフィルタリング] を構成し、スケジューリングパラメーター を使用して、全量または増分データ同期を実行します。増分同期の構成はプラグインによって異なります。増分データ同期の構成の詳細については、「シナリオ: 増分オフライン同期タスクの設定」をご参照ください。

フィールドマッピング

フィールド間のマッピングルールを確立して、ソースデータを対応するターゲットフィールドに書き込みます。構成中に、ソースフィールドとターゲットフィールドのデータ型に互換性があることを確認してください。

  • 複数のフィールドマッピングメソッドが利用可能です:

    • コードレス UI は、名前によるマッピングと行によるマッピングをサポートし、カスタムフィールドリレーションシップも許可します。マッピングされていないフィールドのデータは自動的に無視されます。書き込みの失敗を避けるために、対応するターゲットフィールドにデフォルト値があるか、null 値が許可されていることを確認してください。

    • コードエディター は、列構成の順序に厳密に基づいてフィールドをマッピングします。reader と writer のフィールド数は同じでなければなりません。そうでない場合、タスクの実行は失敗します。

  • 同期タスクは、ターゲットフィールドの動的な値割り当て機能も提供します。これにより、定数、スケジューリングパラメーター、および ${bizdate} などの組み込み変数の柔軟な構成がサポートされます。これらのパラメーターは、スケジューリングフェーズ中に最終的な値を割り当てる必要があります。

ジョブのレート制限制御

  • タスクの同時実行制御 機能は、データベースからの読み取りおよびデータベースへの書き込みのための最大同時接続数を制限します。

  • 同期レート 機能は、ソースまたはターゲットデータソースへの過度の圧力を防ぐためにトラフィックを制御します。制限が設定されていない場合、タスクは現在のハードウェア環境で利用可能な最大転送パフォーマンスを使用します。

分散タスク実行

分散実行をサポートするデータソースは、タスクセグメンテーション技術を使用して、同期タスクを複数のノードに分散して同時実行できます。 これにより、同期速度がクラスターサイズに比例して線形にスケールし、単一ノードのパフォーマンスボトルネックを解消できます。このパターンは、高スループット、低レイテンシの同期シナリオに特に役立ちます。また、アイドル状態のクラスターリソースを効率的にスケジュールし、ハードウェア使用率を大幅に向上させます。

ダーティデータポリシー

ダーティデータ とは、型の競合や制約違反などの例外が原因でターゲットへの書き込みに失敗したレコードを指します。オフライン同期は、ダーティデータポリシーの定義をサポートしています。許容できるダーティデータレコードの数と、それらがタスクに与える影響を定義できます。

  • ダーティデータを無視する: ダーティデータを自動的にフィルタリングし、準拠したデータのみを書き込みます。タスクは実行を継続します。

  • 限られた数のダーティデータレコードを許容する: しきい値 N を設定します。ダーティデータレコードの数が N 以下の場合、異常なレコードは破棄され、タスクは継続します。数が N を超えると、タスクは失敗して終了します。

  • ダーティデータを許容しない: ダーティデータが検出されると、タスクはすぐに失敗して終了します。

タイムゾーン

ソースとターゲットが異なるタイムゾーンにある場合は、ソースのタイムゾーンを設定して、同期中にタイムゾーン変換を実行します。

インテリジェントなデータ処理

DataWorks は、データ同期中のデータ処理機能をサポートしています。これにより、ソースデータを変換および処理してからターゲットに書き込むことができます:

文字列の置換: DataWorks のオフライン同期タスクには、組み込みの文字列置換機能があります。これにより、データをランディングしたり、追加の抽出・変換・書き出し (ETL) ステップを必要とせずに、データ転送中に軽量なデータ変換を実行できます。

AI 支援処理: データ同期中に、大規模な AI モデルを統合して、ソースからの自然言語に対してセマンティック分析、感情分析、その他の分析を実行できます。処理された結果は、ターゲットテーブルに直接書き込まれます。

データベクトル化: ソースデータを抽出し、ベクトル埋め込みを作成し、それらをベクトルデータベースに書き込みます。

その他の操作

タスクの作成方法の詳細については、以下をご参照ください: