データレイクとシームレスに統合するために、Hologres V3.0 以降では、Data Lake Formation (DLF) の Paimon データソース用の外部テーブルを作成できます。Hologres V4.0 では、外部動的テーブルを導入することで、この機能がさらに強化されています。この機能は、外部テーブルと動的テーブルの長所を融合したものです。Paimon 外部テーブルを自動的に設定し、データを増分処理して結果をデータレイクに書き戻すことで、効率的なデータレイクハウスの構築を可能にします。
アーキテクチャ
メリット
外部動的テーブルのメリットは次のとおりです。
統一されたデータパイプライン: データ変換、データレイクでのターゲットテーブルの作成、および処理済みデータの書き戻しを単一の外部動的テーブルに統合します。これにより、複数の個別のジョブが不要になり、ワークフローが合理化されます。
効率的な増分書き込み: 増分更新モードを利用して、新規または変更されたデータのみを自動的に処理してデータレイクに書き込みます。これにより、リフレッシュサイクルごとに処理されるデータと消費される計算リソースが削減され、完全更新と比較してより高速な結果が得られます。
サーバーレスによるコスト削減: サーバーレスリソースを活用して、従量課金制のコンピューティングを実現します。リソースはリフレッシュサイクル中にのみ割り当てられ、すぐに解放されるため、アイドル状態のリソースのコストが排除されます。詳細については、「Hologres サーバーレスインスタンスとは」をご参照ください。
ユースケース
外部動的テーブルは、次のユースケースに最適です。
費用対効果の高い、ほぼリアルタイムのデータレイククエリ
データレイク内の Paimon テーブルを外部動的テーブルのソースとして使用します。テーブルは Paimon データを増分変換し、データがデータレイクから離れることなく Paimon に書き戻します。Hologres 外部テーブルを介して処理済みデータを直接クエリし、データレイクに関するほぼリアルタイムのインサイトを取得します。
データレイクハウスの構築
Hologres または MaxCompute テーブルを外部動的テーブルのソースとして使用します。テーブルはデータを変換し、結果を自動的にデータレイクに書き込んで一元的にストレージします。これにより、ストレージコストが削減され、データ処理が容易になり、データレイクとデータウェアハウスが統合されます。