DataWorksが提供するdata Integrationサービスを使用して、データソースのデータをMaxComputeに同期できます。 MaxComputeは、バッチ同期、リアルタイム同期、統合同期の3種類の同期方法をサポートしています。 このトピックでは、data Integrationサービスを使用してMaxComputeにデータを同期する方法について説明します。
バッチ同期
DataWorksが提供するData Integrationサービスを使用すると、データソースまたはデータセットをデータ同期のソースおよび宛先として定義し、それらをリーダーおよびライターで使用して、単純なデータ同期フレームワークを構築できます。 これにより、構造化データと半構造化データをデータソースからMaxComputeに同期できます。
バッチ同期タスクの設定方法の詳細については、「コードレスUIを使用したバッチ同期ノードの設定」および「コードエディターを使用したバッチ同期ノードの設定」をご参照ください。
使用上の注意
バッチ同期を使用すると、データベース内の単一のテーブルまたはシャードデータベース内のテーブルから単一のMaxComputeテーブルにデータを同期できます。
同期タスクを設定する前に、DataWorksコンソールの [データソース] ページでMaxComputeデータソースを追加する必要があります。 詳細については、「MaxComputeデータソースの追加」をご参照ください。
同期タスクを設定する前に、Data Integrationのリソースグループとデータソースの間にネットワーク接続が確立されていることを確認する必要があります。 詳細については、「ネットワーク接続ソリューション」をご参照ください。
リアルタイム同期
DataWorksが提供するリアルタイムデータ同期機能を使用すると、ソースデータベースの1つ以上のテーブルの増分データをMaxComputeにリアルタイムで同期できます。 これにより、MaxComputeテーブルとソースデータベース間のデータの整合性がリアルタイムで実現されます。 リアルタイム同期タスクを実行する場合、複数の変換プラグインを使用してソースデータを消去し、複数のライターを使用して消去されたデータを目的の宛先に同時に書き込むことができます。 増分データは、単一のテーブルから単一のMaxComputeテーブルに、シャードデータベース内のテーブルから単一のMaxComputeテーブルに、データベース内の複数のテーブルから複数のMaxComputeテーブルに同期できます。
リアルタイム同期タスクの設定方法の詳細については、「DataStudio でリアルタイム同期タスクを作成する」をご参照ください。
使用上の注意
同期タスクを設定する前に、DataWorksコンソールの [データソース] ページでMaxComputeデータソースを追加する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。
要件に基づいて適切な仕様のData Integration専用リソースグループを購入します。 詳細については、「Data Integrationの排他的リソースグループの作成と使用」をご参照ください。
説明MaxComputeの排他的リソースグループが実行される同期タスクの同時実行性に最適な値はありません。 インスタンスデータの量と予想される同期時間に基づいて、同時実行を設定する必要があります。 同期時間を短縮したい場合は、同時スレッドの最大数をサポートするリソース仕様を購入できます。 単一のタスクに必要なリソース仕様の詳細については、「パフォーマンス指標」をご参照ください。
同期タスクを設定する前に、Data Integrationのリソースグループとデータソースの間にネットワーク接続が確立されていることを確認する必要があります。 詳細については、「ネットワーク接続ソリューション」をご参照ください。
リアルタイム同期タスクを実行する前に、MaxComputeデータソースが実行される環境を設定する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。
統合同期
実際には、データ同期は複雑な操作であり、複数のバッチ同期タスク、リアルタイム同期タスク、およびデータ処理タスクを使用する必要があります。 これらのシナリオでは、複雑な設定が必要です。
この問題を解決するために、DataWorksは特定のビジネスシナリオに合わせた構成可能な同期ソリューションを提供します。 このソリューションでは、数回クリックするだけでMaxComputeにデータを同期できます。 詳細については、「MaxComputeにデータを同期するリアルタイム同期ソリューションの作成」および「データベース内のすべてのデータをMaxComputeに同期するバッチ同期ソリューションの作成」をご参照ください。
使用上の注意
同期タスクを設定する前に、DataWorksコンソールの [データソース] ページでMaxComputeデータソースを追加する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。
要件に基づいて適切な仕様のData Integration専用リソースグループを購入します。 詳細については、「Data Integrationの排他的リソースグループの作成と使用」をご参照ください。
説明MaxComputeの排他的リソースグループが実行される同期タスクの同時実行性に最適な値はありません。 インスタンスデータの量と予想される同期時間に基づいて、同時実行を設定する必要があります。 同期時間を短縮したい場合は、同時スレッドの最大数をサポートするリソース仕様を購入できます。 単一のタスクに必要なリソース仕様の詳細については、「パフォーマンス指標」をご参照ください。
同期タスクを設定する前に、Data Integrationのリソースグループとデータソースの間にネットワーク接続が確立されていることを確認する必要があります。 詳細については、「ネットワーク接続ソリューション」をご参照ください。
リアルタイム同期タスクを実行する前に、MaxComputeデータソースが実行される環境を設定する必要があります。 詳細については、「MaxCompute データソース」をご参照ください。