Data Lake Formation (DLF) は、データおよびメタデータ管理、ストレージのための統合されたフルマネージドプラットフォームを提供します。さらに、データアクセスの制御やストレージの分析・最適化も行います。DLF は複数の Alibaba Cloud のビッグデータ分析エンジンとシームレスに統合され、データサイロを解消します。DLF を使用することで、クラウドネイティブなデータレイクおよび OpenLake ソリューションを迅速に構築・管理できます。メタデータ、レイクテーブルフォーマット、ストレージ管理を統合することにより、データレイクの構築および管理における運用保守(O&M)を大幅に簡素化し、ビジネスが業務革新およびデータインサイトに集中できるように支援します。
主な機能
統合メタデータおよびストレージ
コンピュートエンジン間で共有される単一の Lakehouse メタデータおよびストレージを提供し、統合されたプロダクト間でデータをシームレスに連携させます。
統合権限管理
Lakehouse テーブルに対する一元化された権限構成を提供します。これにより、権限を一度定義すれば、すべてのサービスで適用できます。
ストレージ最適化
ファイルコンパクション、期限切れスナップショットのクリーンアップ、期限切れパーティションのクリーンアップ、孤立ファイルのクリーンアップなどの戦略を通じて、ストレージ効率を最適化します。
豊富なエコシステム
ストリーム処理およびバッチ処理エンジンを含む Alibaba Cloud プロダクトと深く統合され、すぐに利用可能な体験を提供し、使いやすさを向上させ、運用を簡素化します。
アーキテクチャ
メタデータ管理: コンソールを使用してデータレイク内のメタデータベースを表示・管理したり、新しいメタデータベースを作成してメタデータを管理し、サードパーティアプリケーションと統合したりできます。
権限管理: Lakehouse データへのアクセス制御を強化し、セキュリティを確保します。DLF は、Catalog、データベース、テーブルの 3 つのレベルで権限管理をサポートします。
ストレージ最適化: ファイルコンパクション、期限切れスナップショットのクリーンアップ、期限切れパーティションのクリーンアップ、孤立ファイルのクリーンアップなどの Lakehouse テーブル最適化戦略をサポートします。これらの戦略により、ストレージコストを削減し、クエリ効率を向上させます。
メリット
フルマネージドサービス: フルマネージドサービスとして、DLF は統合された Paimon メタデータおよびストレージ管理を提供します。すぐに利用可能で、運用保守(O&M)不要であり、データのライフサイクル全体をサポートします。
エンタープライズレベルのセキュリティ: DLF は、複数の抽象化レベルにわたって API およびデータ権限の二重制御を提供し、データのセキュリティとコンプライアンスを確保します。
柔軟な最適化戦略: ファイルコンパクションやデータクリーンアップを含む柔軟な Lakehouse テーブル最適化戦略をサポートし、アクセスパフォーマンスを大幅に向上させ、ストレージコストを削減します。
豊富なエコシステム: Paimon との深い統合に基づき、DLF はメタデータおよびストレージ管理のためのフルマネージドサービスを提供します。Alibaba Cloud のコンピュートエンジンおよび AI プロダクトとシームレスに接続し、強力なエコシステムを形成します。
ユースケース
データレイクハウス
データレイクハウスは、データウェアハウスとデータレイクの利点を組み合わせたアーキテクチャです。このアーキテクチャは多様なデータの型を扱いながら、パフォーマンス専有型の分析を実現します。大量の履歴データおよびリアルタイムデータを処理するためにデータレイクハウスを利用できます。処理済みのデータは共有リソースとして活用でき、異なるチームがオンデマンドでアクセスしながら、堅牢なデータセキュリティを維持できます。
従来型のビッグデータユースケース
DLF は、データレイクのコンピューティングおよび分析を含む従来型のビッグデータユースケースに最適です。一般的な用途には、オフラインビッグデータ分析、リアルタイム分析、機械学習、ログファイル分析などがあります。統合メタデータおよびストレージサービスを提供することで、DLF はデータレイクの構築およびデータガバナンスを簡素化・加速します。