Data Lake Formation (DLF) は、データとメタデータの管理、およびストレージのための、統一されたフルマネージドプラットフォームを提供します。さらに、データアクセスの制御、ストレージの分析と最適化も提供します。DLF は、Alibaba Cloud の複数のビッグデータ分析エンジンとシームレスに統合し、データサイロを解消します。DLF を使用すると、クラウドネイティブなデータレイクと OpenLake ソリューションを迅速に構築および管理できます。メタデータ、レイクテーブルフォーマット、ストレージ管理を統合することで、DLF はデータレイクの構築と管理の O&M を大幅に簡素化し、企業がビジネスイノベーションとデータインサイトに集中できるようにします。
機能
統合メタデータとストレージ
コンピュートエンジン間で共有されるレイクハウスのメタデータとストレージの単一セットを提供し、統合されたプロダクト間でデータがシームレスに流れるようにします。
統合権限管理
レイクハウスのテーブルに対して統一された権限構成を提供します。これにより、一度権限を定義すれば、すべてのサービスでその権限を適用できます。
ストレージの最適化
ファイルの圧縮、期限切れのスナップショットのクリーンアップ、期限切れのパーティションのクリーンアップ、孤立したファイルのクリーンアップなどの戦略を通じて、ストレージ効率を最適化します。
包括的なエコシステム
ストリームおよびバッチ処理エンジンを含む Alibaba Cloud プロダクトと深く統合されており、すぐに使えるエクスペリエンスを提供し、使いやすさを向上させ、操作を簡素化します。
アーキテクチャ
メタデータ管理: コンソールを使用して、データレイク内のメタデータベースを表示および管理し、新しいメタデータベースを作成してメタデータを管理し、サードパーティのアプリケーションと統合します。
権限管理: レイクハウスデータのアクセスの制御を強化して、そのセキュリティを確保します。DLF は、カタログ、データベース、テーブルの 3 つのレベルでの権限管理をサポートしています。
ストレージの最適化: ファイルの圧縮、期限切れのスナップショットのクリーンアップ、期限切れのパーティションのクリーンアップ、孤立したファイルのクリーンアップなど、レイクハウスのテーブル最適化戦略をサポートしています。これらの戦略により、ストレージコストが削減され、クエリ効率が向上します。
利点
フルマネージドサービス: フルマネージドサービスとして、DLF は統合された Paimon メタデータとストレージ管理を提供します。すぐに利用でき、O&M が不要で、完全なデータライフサイクルをサポートします。
エンタープライズレベルのセキュリティ: DLF は、複数の抽象化レベルにわたる API とデータ権限の二重のコントロールを提供し、データの安全性とコンプライアンスを確保します。
柔軟な最適化戦略: ファイルの圧縮やデータのクリーンアップなど、柔軟なレイクハウスのテーブル最適化戦略をサポートし、アクセスパフォーマンスを大幅に向上させ、ストレージコストを削減します。
豊富なエコシステム: Paimon との深い統合に基づいて構築された DLF は、メタデータとストレージを管理するためのフルマネージドサービスを提供します。Alibaba Cloud のコンピュートエンジンや AI プロダクトとシームレスに接続し、強力なエコシステムを形成します。
ユースケース
データレイクハウス
データレイクハウスは、データウェアハウスとデータレイクの利点を組み合わせたものです。このアーキテクチャは、多様なデータの型を処理しながら、パフォーマンス専有型分析を提供します。データレイクハウスを使用して、大量の履歴データとリアルタイムデータを処理できます。処理されたデータは共有リソースとして機能し、堅牢なデータセキュリティを維持しながら、さまざまなチームが必要に応じてアクセスできるようになります。
従来のビッグデータのユースケース
DLF は、データレイクのコンピューティングや分析など、従来のビッグデータのユースケースに最適です。一般的なアプリケーションには、オフラインのビッグデータ分析、リアルタイム分析、機械学習、ログファイル分析などがあります。統合されたメタデータとストレージサービスを提供することで、DLF はデータレイクの構築とデータガバナンスを簡素化し、加速させます。