DLF 大数据エンジン統合アーキテクチャの概要 - Data Lake Formation

Alibaba Cloud の統一されたデータレイク基盤として、Data Lake Formation (DLF) は主流のビッグデータコンピュートエンジンと統合されています。これにより、リアルタイムおよびオフラインのデータレイクハウス、オンライン分析処理 (OLAP) など、多様なビジネスシナリオを強力にサポートします。DLF は、リアルタイムコンピューティング Flink (VVP)、EMR Serverless Spark、EMR Serverless StarRocks、および EMR on ECS などのコアエンジンと深く統合されています。また、エコシステムの互換性も継続的に拡大しています。

統合メソッド

DLF は、さまざまなエンジンやユーザーに柔軟なデータアクセスを提供するために、以下の 3 つの標準統合メソッドを提供します。

Paimon REST: Apache Paimon 上に構築されたコンピュートエンジン向けに、このメソッドは Paimon コミュニティの標準に準拠した RESTful メタデータサービスインターフェイスを提供します。テーブルスキーマ管理やスナップショットクエリなどのコア操作をサポートします。
Iceberg REST: Apache Iceberg 上に構築されたコンピュートエンジン向けに、このメソッドは Iceberg コミュニティの標準に準拠した RESTful メタデータサービスインターフェイスを提供します。テーブルスキーマ管理やスナップショットクエリなどのコア操作をサポートします。
ファイルアクセス: このメソッドは Paimon Virtual File System (PVFS) を使用して、テーブルデータを標準のファイルパスに抽象化します。これにより、完全なコンピュートエンジンを必要とせずに、基盤となるデータファイルとメタデータを直接読み取ることができます。スクリプトによる探索、デバッグ、軽量なデータ処理に適しています。

これら 3 つのメソッドを使用すると、エンジンの技術スタックとアーキテクチャのプリファレンスに基づいて、最適なアクセスパスを選択できます。これにより、DLF データレイクとの効率的な統合が保証されます。