ドキュメントセンター

すべてのプロダクト

ドキュメントセンター

DataWorks:オフライン同期の機能

最終更新日:Nov 15, 2025

Data Integration のオフライン同期機能は、Reader プラグインと Writer プラグインを提供します。ソースデータソースとターゲットデータソースを定義し、DataWorks のスケジューリングパラメーターを使用して、ソースデータベースからターゲットデータベースに全量データまたは増分データを同期できます。このトピックでは、オフライン同期の機能について説明します。

コア機能

オフライン同期の機能を次の図に示します。

機能	説明
異種データソース間のデータ同期	Data Integration は、リレーショナルデータベース、非構造化ストレージ、ビッグデータストレージ、メッセージキューなど、50 種類以上のデータソースタイプをサポートしています。ソースデータソースとターゲットデータソースを定義し、提供されている Reader プラグインと Writer プラグインを使用して、構造化データソースまたは半構造化データソース間でデータを転送できます。詳細については、「サポートされているデータソースと同期ソリューション」をご参照ください。
複雑なネットワーク環境でのデータ同期	オフライン同期は、ApsaraDB、オンプレミスのデータセンター、ECS 上の自己管理データベース、および Alibaba Cloud 外部のデータベースのデータ同期をサポートしています。同期を構成する前に、リソースグループとソースおよびターゲットの両方の間のネットワーク接続を確保してください。構成の詳細については、「ネットワーク接続ソリューション」をご参照ください。
同期シナリオ	1. サポートされている同期モード定期的な全量同期: ソーステーブルのデータでターゲットテーブルを定期的に上書きします。このモードは、全量更新シナリオに適しています。定期的な増分同期: ソーステーブルから新規または変更されたデータのみを毎日または毎時で同期します。これは、データフィルタリングのための `WHERE` 句とともに、`${bizdate}` などの組み込みのスケジューリングパラメーターを使用して実現されます。これにより、指定されたデータのみがプルされ、対応する時間パーティションに書き込まれるようになります。詳細については、「シナリオ: 増分オフライン同期タスクの設定」をご参照ください。既存データのバックフィル: 一度に大量の既存データをバックフィルするには、オペレーションセンターの [データバックフィル] 機能を使用できます。これにより、同期タスクをバッチで実行して、既存データを効率的にアーカイブできます。説明スケジューリングパラメーターの詳細については、「Data Integration におけるスケジューリングパラメーターの一般的なシナリオ」および「サポートされているスケジューリングパラメーターのフォーマット」をご参照ください。 2. サポートされているソース構造単一テーブルから単一テーブルへ: これは最も基本的な同期メソッドです。1 つのソーステーブルから 1 つのターゲットテーブルにデータを同期します。シャーディングされたデータベースとテーブルから単一テーブルへ: `order_01` や `order_02` などの複数の物理テーブルからデータを自動的に集約し、単一のターゲットテーブルにデータを書き込みます。サポートされているデータソースには、MySQL、SQL Server、Oracle、PostgreSQL、PolarDB、AnalyticDB があります。詳細については、「シャーディングされたデータベースとテーブルの同期」をご参照ください。
構成メソッド	Data Integration のオフライン同期タスクは、次の方法で構成できます。コードレス UI: ビジュアルウィザードを使用して、ステップバイステップで構成を完了できます。この方法は習得が容易で、すぐに使い始めるのに適しています。ただし、一部の高度な機能は利用できません。コードエディター: JSON スクリプトを使用して、同期ロジックを直接定義できます。この方法は高度な使用に適しており、詳細な制御のためのより複雑な構成をサポートしています。 OpenAPI を使用した作成: OpenAPI を通じてタスクのライフサイクル全体を管理できます。これにより、プログラムによる操作がサポートされます。API の詳細については、「」をご参照ください。説明タスク構成機能の詳細については、「機能概要」をご参照ください。
オフライン同期タスクの運用保守	監視とアラート: オフライン同期タスクの実行ステータスを監視できます。これには、タスクが完了しない、エラーが発生する、または完了するなどのシナリオのアラートが含まれます。アラートは、メール、ショートメッセージ、電話、DingTalk グループチャットボット、および Webhook で受信者に送信できます。 Data Quality: タスクが送信されて公開された後、オペレーションセンターでターゲットテーブルのデータ品質監視ルールを構成できます。現在、一部のデータベースタイプのみがデータ品質監視ルールをサポートしています。データソース環境の分離: 単一のデータソース名を、開発者環境と本番環境の 2 つの独立した構成にバインドできます。タスクは実行中に環境に基づいてデータソースを自動的に切り替えます。開発者環境は開発とデバッグに使用され、本番環境は本番スケジューリングに使用されます。これにより、テスト操作が誤ってオンラインデータに影響を与えるのを防ぎます。

機能概要

機能	説明
完全データまたは増分データの同期	オフライン同期タスクで [データフィルタリング] を構成し、スケジューリングパラメーターを使用して、全量または増分データ同期を実行します。増分同期の構成はプラグインによって異なります。増分データ同期の構成の詳細については、「シナリオ: 増分オフライン同期タスクの設定」をご参照ください。
フィールドマッピング	フィールド間のマッピングルールを確立して、ソースデータを対応するターゲットフィールドに書き込みます。構成中に、ソースフィールドとターゲットフィールドのデータ型に互換性があることを確認してください。複数のフィールドマッピングメソッドが利用可能です: コードレス UI は、名前によるマッピングと行によるマッピングをサポートし、カスタムフィールドリレーションシップも許可します。マッピングされていないフィールドのデータは自動的に無視されます。書き込みの失敗を避けるために、対応するターゲットフィールドにデフォルト値があるか、null 値が許可されていることを確認してください。コードエディターは、列構成の順序に厳密に基づいてフィールドをマッピングします。reader と writer のフィールド数は同じでなければなりません。そうでない場合、タスクの実行は失敗します。同期タスクは、ターゲットフィールドの動的な値割り当て機能も提供します。これにより、定数、スケジューリングパラメーター、および `${bizdate}` などの組み込み変数の柔軟な構成がサポートされます。これらのパラメーターは、スケジューリングフェーズ中に最終的な値を割り当てる必要があります。
ジョブのレート制限制御	タスクの同時実行制御機能は、データベースからの読み取りおよびデータベースへの書き込みのための最大同時接続数を制限します。同期レート機能は、ソースまたはターゲットデータソースへの過度の圧力を防ぐためにトラフィックを制御します。制限が設定されていない場合、タスクは現在のハードウェア環境で利用可能な最大転送パフォーマンスを使用します。
分散タスク実行	分散実行をサポートするデータソースは、タスクセグメンテーション技術を使用して、同期タスクを複数のノードに分散して同時実行できます。これにより、同期速度がクラスターサイズに比例して線形にスケールし、単一ノードのパフォーマンスボトルネックを解消できます。このパターンは、高スループット、低レイテンシの同期シナリオに特に役立ちます。また、アイドル状態のクラスターリソースを効率的にスケジュールし、ハードウェア使用率を大幅に向上させます。
ダーティデータポリシー	ダーティデータとは、型の競合や制約違反などの例外が原因でターゲットへの書き込みに失敗したレコードを指します。オフライン同期は、ダーティデータポリシーの定義をサポートしています。許容できるダーティデータレコードの数と、それらがタスクに与える影響を定義できます。ダーティデータを無視する: ダーティデータを自動的にフィルタリングし、準拠したデータのみを書き込みます。タスクは実行を継続します。限られた数のダーティデータレコードを許容する: しきい値 N を設定します。ダーティデータレコードの数が N 以下の場合、異常なレコードは破棄され、タスクは継続します。数が N を超えると、タスクは失敗して終了します。ダーティデータを許容しない: ダーティデータが検出されると、タスクはすぐに失敗して終了します。
タイムゾーン	ソースとターゲットが異なるタイムゾーンにある場合は、ソースのタイムゾーンを設定して、同期中にタイムゾーン変換を実行します。
インテリジェントなデータ処理	DataWorks は、データ同期中のデータ処理機能をサポートしています。これにより、ソースデータを変換および処理してからターゲットに書き込むことができます: 文字列の置換: DataWorks のオフライン同期タスクには、組み込みの文字列置換機能があります。これにより、データをランディングしたり、追加の抽出・変換・書き出し (ETL) ステップを必要とせずに、データ転送中に軽量なデータ変換を実行できます。 AI 支援処理: データ同期中に、大規模な AI モデルを統合して、ソースからの自然言語に対してセマンティック分析、感情分析、その他の分析を実行できます。処理された結果は、ターゲットテーブルに直接書き込まれます。データベクトル化: ソースデータを抽出し、ベクトル埋め込みを作成し、それらをベクトルデータベースに書き込みます。

その他の操作

タスクの作成方法の詳細については、以下をご参照ください: