すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:DataWorks Data Integrationを使用したデータ同期ジョブの実行

最終更新日:Apr 09, 2025

DataWorksが提供するdata Integrationサービスを使用して、データソースのデータをMaxComputeに同期できます。 MaxComputeは、バッチ同期、リアルタイム同期、統合同期の3種類の同期方法をサポートしています。 このトピックでは、data Integrationサービスを使用してMaxComputeにデータを同期する方法について説明します。

バッチ同期

DataWorksが提供するData Integrationサービスを使用すると、データソースまたはデータセットをデータ同期のソースおよび宛先として定義し、それらをリーダーおよびライターで使用して、単純なデータ同期フレームワークを構築できます。 これにより、構造化データと半構造化データをデータソースからMaxComputeに同期できます。

リアルタイム同期

DataWorksが提供するリアルタイムデータ同期機能を使用すると、ソースデータベースの1つ以上のテーブルの増分データをMaxComputeにリアルタイムで同期できます。 これにより、MaxComputeテーブルとソースデータベース間のデータの整合性がリアルタイムで実現されます。 リアルタイム同期タスクを実行する場合、複数の変換プラグインを使用してソースデータを消去し、複数のライターを使用して消去されたデータを目的の宛先に同時に書き込むことができます。 増分データは、単一のテーブルから単一のMaxComputeテーブルに、シャードデータベース内のテーブルから単一のMaxComputeテーブルに、データベース内の複数のテーブルから複数のMaxComputeテーブルに同期できます。

  • リアルタイム同期タスクの設定方法の詳細については、「DataStudio でリアルタイム同期タスクを作成するをご参照ください。

  • 使用上の注意

    • 同期タスクを設定する前に、DataWorksコンソールの [データソース] ページでMaxComputeデータソースを追加する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。

    • 要件に基づいて適切な仕様のData Integration専用リソースグループを購入します。 詳細については、「Data Integrationの排他的リソースグループの作成と使用」をご参照ください。

      説明

      MaxComputeの排他的リソースグループが実行される同期タスクの同時実行性に最適な値はありません。 インスタンスデータの量と予想される同期時間に基づいて、同時実行を設定する必要があります。 同期時間を短縮したい場合は、同時スレッドの最大数をサポートするリソース仕様を購入できます。 単一のタスクに必要なリソース仕様の詳細については、「パフォーマンス指標」をご参照ください。

    • 同期タスクを設定する前に、Data Integrationのリソースグループとデータソースの間にネットワーク接続が確立されていることを確認する必要があります。 詳細については、「ネットワーク接続ソリューション」をご参照ください。

    • リアルタイム同期タスクを実行する前に、MaxComputeデータソースが実行される環境を設定する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。

統合同期

実際には、データ同期は複雑な操作であり、複数のバッチ同期タスク、リアルタイム同期タスク、およびデータ処理タスクを使用する必要があります。 これらのシナリオでは、複雑な設定が必要です。

  • この問題を解決するために、DataWorksは特定のビジネスシナリオに合わせた構成可能な同期ソリューションを提供します。 このソリューションでは、数回クリックするだけでMaxComputeにデータを同期できます。 詳細については、「MaxComputeにデータを同期するリアルタイム同期ソリューションの作成」および「データベース内のすべてのデータをMaxComputeに同期するバッチ同期ソリューションの作成」をご参照ください。

  • 使用上の注意

    • 同期タスクを設定する前に、DataWorksコンソールの [データソース] ページでMaxComputeデータソースを追加する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。

    • 要件に基づいて適切な仕様のData Integration専用リソースグループを購入します。 詳細については、「Data Integrationの排他的リソースグループの作成と使用」をご参照ください。

      説明

      MaxComputeの排他的リソースグループが実行される同期タスクの同時実行性に最適な値はありません。 インスタンスデータの量と予想される同期時間に基づいて、同時実行を設定する必要があります。 同期時間を短縮したい場合は、同時スレッドの最大数をサポートするリソース仕様を購入できます。 単一のタスクに必要なリソース仕様の詳細については、「パフォーマンス指標」をご参照ください。

    • 同期タスクを設定する前に、Data Integrationのリソースグループとデータソースの間にネットワーク接続が確立されていることを確認する必要があります。 詳細については、「ネットワーク接続ソリューション」をご参照ください。

    • リアルタイム同期タスクを実行する前に、MaxComputeデータソースが実行される環境を設定する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。