すべてのプロダクト
Search
ドキュメントセンター

MaxCompute:ほぼリアルタイムの増分インポート

最終更新日:Jan 17, 2025

MaxComputeでは、増分データをほぼリアルタイムモードでデルタテーブルに書き込み、一度にフルデータをデルタテーブルに書き込むことができます。 このトピックでは、同時実行性が高く、ほぼリアルタイムの増分書き込みシナリオのアーキテクチャ設計について説明します。

実際のビジネスデータ処理シナリオでは、データベース、ログシステム、メッセージキューシステムなど、さまざまなデータソースが含まれます。 データをデルタテーブルに書き込むために、MaxComputeはオープンソースのFlinkコネクタプラグインを提供しています。 DataWorksのData Integrationやその他のデータインポートツールと一緒にプラグインを使用すると、高い同時実行性、フォールトトレランス、およびトランザクション送信シナリオでの低レイテンシと高いデータ精度の要件を満たすことができます。

image.png

上の図は、ビジネスデータ処理を示しています。

  • データインポートツールは、MaxComputeのTunnelサービスによって提供されるSDKクライアントと統合され、Tunnelサーバーへの同時性の高い分レベルのデータ書き込みをサポートします。 次に、トンネルサーバーは複数のワーカーノードを起動して、各バケットのデータファイルに並行してデータを書き込みます。

  • write.bucket.numパラメーターを設定して、書き込み同時実行性を指定できます。 高い同時実行性は、高い書き込み速度を示す。 バケットが提供する利点の詳細については、「テーブルデータの形式」をご参照ください。

  • Tunnel SDKによって提供されるデータ書き込みインターフェイスは、UPSERTおよびDELETE操作をサポートします。

  • コミットインターフェイスの呼び出しは、コミットの前に書き込まれたデータのアトミックコミットを表します。

    • 呼び出しが成功すると、書き込まれたデータを照会することができ、読み書きスナップショットの分離要件を満たします。

    • 呼び出しが失敗した場合は、データの書き込みを再試行できます。 データの破損などの回復不可能なエラーが原因で障害が発生していない場合は、再試行が成功する可能性があり、データを書き換える必要はありません。 それ以外の場合は、データを書き換えて再コミットする必要があります。