DataWorks データ統合は、複雑なネットワーク環境でのデータ同期をサポートしています。DataStudio ページで コードレス UI を使用してバッチ同期タスクを設定 し、オフラインデータを定期的に同期できます。また、DataStudio ページで リアルタイム同期ノードを作成 し、単一のテーブルまたはデータベースから増分データをリアルタイムで同期することもできます。このトピックでは、データ同期の概要について説明します。
背景情報
DataStudio ページで作成されるデータ同期ノードに加えて、DataWorks では、データ統合でさまざまなデータ同期ソリューションを作成することもできます。たとえば、フルデータと増分データの両方を同期するために使用されるデータ同期ソリューションや、データベースのすべてのデータをバッチ同期するために使用されるデータ同期ソリューションなどです。データ統合のデータ同期ソリューションの詳細については、サポートされているデータソースの種類と同期操作 をご参照ください。
制限
[開発] ロールが割り当てられた後にのみ、DataStudio ページでデータ同期ノードを作成できます。RAM ユーザーをワークスペースにメンバーとして追加し、RAM ユーザーにロールを割り当てる方法については、RAM ユーザーをワークスペースにメンバーとして追加し、メンバーにロールを割り当てる をご参照ください。
バッチ同期機能
ユースケース
バッチ同期機能を使用すると、単一のテーブルから別の単一のテーブルにデータを同期 したり、シャーディングデータベースのテーブルから単一のテーブルにデータを同期 したりできます。バッチ同期ノードを設定する場合は、スケジューリングパラメーターを使用して、フルデータと増分データを宛先テーブルの特定のパーティションに定期的に同期できます。また、オペレーションセンターで提供されるデータバックフィル機能を使用して、バッチ同期ノードの設定に基づいて、履歴データを宛先データベースまたはデータウェアハウスの特定のテーブルまたは特定のパーティションに同期することもできます。
サポートされているデータソース
データ統合は、リレーショナルデータベース、非構造化ストレージシステム、ビッグデータストレージシステム、メッセージキューなど、40 を超える種類のデータソース間でのデータのバッチ同期をサポートしています。DataWorks では、ソースと宛先を定義し、データ統合によって提供される Reader プラグインと Writer プラグインを使用することで、構造化データソースまたは半構造化データソース間でデータを同期できます。
機能の説明
説明
参照
データ統合は、ソースからデータを読み取り、宛先にデータを書き込むために使用できる Reader プラグインと Writer プラグインを提供します。DataWorks に必要なデータソースを追加し、バッチ同期ノードを作成するときにデータソースを選択して、データを読み取るソースとデータを書き込む宛先を決定できます。
DataWorks に必要なデータソースを追加した後、コードレス ユーザーインターフェース(UI)を使用して、データソースのバッチ同期ノードを設定できます。
次のシナリオでは、コードエディターを使用してバッチ同期ノードを設定する必要があります。
使用したいデータソースを DataWorks に追加できない。
使用したいデータソースがコードレス UI をサポートしていない。
使用したい Reader プラグインまたは Writer プラグインのパラメーターを、コードエディターを使用してのみ設定できる。
リアルタイム同期機能
リアルタイム同期機能を使用すると、複数の種類のデータソースを組み合わせてスター型のデータ同期リンクを形成できます。異なる種類のデータソース間でデータをリアルタイムで同期できます。リアルタイム同期ノードの入力と出力を設定して、単一のテーブルから別の単一のテーブルにデータを同期したり、データベースのすべてのデータを宛先に同期したりできます。詳細については、サポートされているデータソースの種類と同期操作 と リアルタイム同期機能の概要 をご参照ください。
データ同期ノードのスケジューリング設定
ノード間のスケジューリング依存関係
バッチ同期ノード
バッチ同期ノードの祖先ノード: データ同期ノードは、DataWorks でサポートされているデータ系列に依存できます。バッチ同期ノードが属するワークスペースの ルートノード または ゼロロードノード をバッチ同期ノードの祖先ノードとして設定できます。これにより、バッチ同期ノードはルートノードまたはゼロロードノードによってスケジュールされます。
バッチ同期ノードの子孫ノード: SQL ノードをバッチ同期ノードに依存するように設定し、システムが自動解析機能に基づいてノード間のスケジューリング依存関係を自動的に確立できるようにするには、
プロジェクト名.テーブル名形式で、バッチ同期ノードによって生成されたテーブルをノードの出力として設定することをお勧めします。
リアルタイム同期ノードの子孫ノード
DataWorks では、自動トリガーノードによって生成されたテーブルのデータのみを使用して、スケジューリング依存関係を設定できます。ノードがリアルタイム同期ノードに依存し、リアルタイム同期ノードによって生成されたテーブルデータを処理する必要がある場合、テーブル系列に基づいてノードのスケジューリング依存関係を設定することはできません。ノードのスケジューリング依存関係を設定するには、ノードが属するワークスペースの ルートノード または ゼロロードノード をノードの祖先ノードとして設定できます。これにより、ノードはルートノードまたはゼロロードノードによってスケジュールされます。
説明リアルタイム同期ノードが期待どおりにデータを生成できるようにするには、ノードの 監視ルールを設定 できます。
バッチ同期ノードのスケジューリングパラメーター設定
DataWorks は、バッチ同期ノードに組み込み変数 ${bizdate} を提供します。デフォルトでは、スケジューリングパラメーター $bizdate には、組み込み変数 ${bizdate} が値として割り当てられます。
データ同期でスケジューリングパラメーターを使用する方法については、データ同期でのスケジューリングパラメーターの使用に関する説明 の「データ同期でのスケジューリングパラメーターの使用に関する説明」セクションをご参照ください。
データ同期におけるスケジューリングパラメーターのユースケースについては、スケジューリングパラメーターの一般的なユースケース をご参照ください。