データレイクとデータウェアハウス

近年のデータレイクの概念の台頭に伴い、業界はデータウェアハウスとデータレイクの比較と議論について絶えず議論しています。 データレイクは次世代のビッグデータプラットフォームであると言う人もいます。主要なクラウドメーカーも独自のデータレイクソリューションを提案しています。一部のクラウドデータウェアハウス製品には、データレイクとのリンク機能も追加されています。 しかし、データウェアハウスとデータレイクの違いは正確には何ですか?

前回の記事では、データレイクとは何か、データレイクの基本アーキテクチャ、クラウドベースのデータレイクフレームワークを紹介しました。この記事では、データレイクとデータウェアハウスの違いを分析し、新しい方向性を紹介します。 2つの統合と進化の概要-レイクウェアハウス1。

1.データウェアハウスとは

データウェアハウスの概念は、主に複雑なデータ指向のクエリと分析のシナリオを扱うデータベース分野に端を発しています。ビッグデータ技術の発展に伴い、SQL言語やクエリオプティマイザなどの多数のデータベース技術を借りてビッグデータデータウェアハウスを形成し、その強力な分析能力により主流となっています。近年、データウェアハウスとクラウドネイティブテクノロジーの組み合わせにより、企業がデータウェアハウスを展開するためのリソース供給の問題を解決するクラウドデータウェアハウスが作成されました。ビッグデータのハイレベル(エンタープライズレベル)プラットフォーム機能として、クラウドデータウェアハウスは、すぐに使用できる、無制限の拡張、およびシンプルな操作とメンテナンス機能により、ますます注目を集めています。

データウェアハウスは、企業のすべてのレベルでの意思決定プロセスのためのすべてのタイプのデータのサポートを提供する戦略的なコレクションです。これは、分析レポートと意思決定支援の目的で作成された単一のデータストアです。ビジネスインテリジェンスを必要とするビジネスのビジネスプロセスの改善、監視時間、コスト、品質、および制御に関するガイダンスを提供します。

データウェアハウスの本質は、次の3つの部分で構成されています。
(1)内蔵ストレージシステム、データは抽象的な方法(テーブルやビューの使用など)で提供され、ファイルシステムは公開されません。
(2)通常、ETL / ELTメソッドを使用して、データをクリーンアップおよび変換する必要があります
(3)ビジネスインテリジェンスの意思決定のためのモデリングとデータ管理に重点を置く

上記の基準から判断すると、従来のデータウェアハウス(Teradataなど)と新しいクラウドデータウェアハウスシステム(AWS Redshift、Google BigQuery、Alibaba Cloud MaxCompute)はどちらも、データウェアハウスの設計の本質を具体化しており、どちらもファイルシステムを外の世界。これは、データを出し入れするサービスインターフェースです。この設計にはいくつかの利点があります。

(1)エンジンはデータを深く理解し、ストレージとコンピューティングを深く最適化できます
(2)データライフサイクル管理、完璧な血縁システム
(3)きめ細かいデータ管理とガバナンス
(4)完璧なメタデータ管理機能、エンタープライズレベルのデータセンターの構築が容易

このため、AlibabaのFeitianビッグデータプラットフォームの構築当初は、データウェアハウスアーキテクチャ、つまりMaxComputeビッグデータプラットフォームを採用していました。 MaxCompute(以前のODPS)は、Alibabaの経済のためのビッグデータプラットフォームであるだけでなく、Alibaba Cloud上のオンラインビッグデータコンピューティングサービスでもあり、安全、信頼性、高性能、低コストで、GBからEBまでオンデマンドで弾力的にスケーラブルです。 (図6.これはMaxCompute製品アーキテクチャです。詳細については、Alibaba Cloud MaxComputeの公式Webサイトアドレスをクリックしてください)。 MaxComputeは、SaaSモデルのエンタープライズレベルのクラウドデータウェアハウスとして、Alibabaエコノミーで広く使用されており、インターネット、新しい金融、新しい小売、デジタル政府など、AlibabaCloudの何千もの顧客に使用されています。

MaxComputeデータウェアハウスのアーキテクチャのおかげで、Alibabaの上位管理者は、「データセキュリティシステム」、「データ品質」、「データガバナンス」、「データラベリング」などの管理機能を徐々に構築し、最終的にAlibabaのビッグデータを形成しました。データミドルオフィス。データミドルプラットフォームの概念の初期の支持者として、アリババのデータミドルプラットフォームはデータウェアハウスのアーキテクチャから恩恵を受けていると言えます。

2.データベース、データウェアハウスからデータレイクへの進化の傾向

データベースのデータにはアライメント要件があり、データベースはアプリケーション指向であり、各アプリケーションにはデータベースが必要な場合があります。企業に数十のアプリケーションがある場合、数十のデータベースが存在します。何十ものデータベースを接続して分析する方法は?道はない。

次に、データベースからデータウェアハウスに発展しましたが、データウェアハウスはどのアプリケーションにも対応していません。ただし、データベースに接続されています。ETLバッチタスクを毎日スケジュールする必要がある場合は、さまざまなアプリケーションとデータを集約し、いくつかのパラダイムモデルに従って接続分析を実行して、一定期間の全体的なデータビューを取得します。この前提は、多くのデータベースがデータウェアハウスにデータを提供する必要があるということです。

データ量の増加とデータタイプの変更に伴い、ビデオ、オーディオ、ドキュメントなどの多くの非構造化データが、データ全体のますます多くの割合を占めています。元のデータウェアハウスをサポートすることは困難であったため、ますます多くの企業が元のデータを実際の初期状態に維持することを望んでいます。この需要に駆り立てられて、データレイクのアイデアが形になり始めました。これにより、データを元の状態で保存できるため、企業は複数の次元からより多くの分析を行うことができます。データはデータレイクに簡単に入る可能性があり、ユーザーはデータ収集、データクリーニング、および正規化された処理を遅らせることもできます。これらはビジネスニーズが来るまで遅らせることができます。従来のデータウェアハウスでは、モデルパラダイムの要件により、ビジネスを気軽に変更することはできず、変更には基になるデータのさまざまな変更が含まれます。相対的に言えば、データレイクはより柔軟性があり、上位層のデータアプリケーションの変更により迅速に適応できます。

3.データレイクとデータウェアハウス

データレイクは元のデータ形式で保存され、構造化データまたは非構造化データの最も原始的な形式でデータを保存できることを目的として、すべてのリアルタイムデータの詳細を失うことなくデータを使用できるようにします。バッチデータはデータレイクに集約され、関連データはマシン学習またはデータ分析のためにレイクから取得されます。

データレイクファーストの設計は、基盤となるファイルストレージを開くことにより、レイクに入るデータに最大限の柔軟性をもたらします。データレイクに入るデータは、構造化、半構造化、または完全に非構造化の生ログにすることができます。さらに、オープンストレージは上位層エンジンの柔軟性も高めます。さまざまなエンジンは、独自のシナリオに従ってデータレイクに格納されたデータを自由に読み書きできますが、かなり緩い互換性規則に従うだけで済みます。ただし、同時に、ファイルシステムに直接アクセスすると、きめ細かい(ファイルの粒度よりも小さい)アクセス許可管理、統合ファイル管理、読み取り/書き込みインターフェイスのアップグレードなど、多くの高レベルの機能を実装することが困難になります。非常に困難です(すべてのアクセスを完了する必要があります)。ファイルのエンジンがアップグレードされ、アップグレードが完了します)。

データウェアハウスファーストの設計では、データの使用効率、大規模なデータ管理、セキュリティ/コンプライアンスなど、エンタープライズレベルの成長要件にさらに注意を払っています。データは、統合されているがオープンなサービスインターフェイスを介してデータウェアハウスに入ります。データには通常、事前定義されたスキーマがあり、ユーザーはデータサービスインターフェイスまたはコンピューティングエンジンを介して分散ストレージシステム内のファイルにアクセスします。データウェアハウスファーストの設計では、データアクセスインターフェイス/権限管理/データ自体を抽象化することで、より高いパフォーマンス(ストレージまたはコンピューティング)、閉ループセキュリティシステム、およびデータガバナンス機能を交換します。これらの機能は、企業の使用は非常に重要であり、私たちはそれを成長と呼んでいます。

4.湖と倉庫の統合

レイクとウェアハウスの統合は、データウェアハウスとデータレイクの2つのシステムが接続されていることを意味します。これにより、データとコンピューティングがレイクとウェアハウスの間を自由に流れ、完全で有機的なビッグデータテクノロジーエコシステムが構築されます。

Alibaba Cloud LakeとWarehouseの統合ソリューション:

オリジナルのデータウェアハウスアーキテクチャに基づいて、Alibaba Cloud MaxComputeはオープンソースのデータレイクとクラウドベースのデータレイクを統合し、最終的にレイクとウェアハウスの統合の全体的なアーキテクチャを実現します。このアーキテクチャでは、複数の基盤となるストレージシステムが共存しますが、統合されたストレージアクセスレイヤーと統合されたメタデータ管理を通じて、統合されたカプセル化インターフェイスが上位レベルのエンジンに提供され、ユーザーはデータウェアハウスとデータレイクのテーブルを共同でクエリできます。アーキテクチャ全体には、統合されたデータセキュリティ、管理、およびガバナンス機能もあります。

MaxComputeの湖と倉庫の統合テクノロジーに基づいて、DataWorksは、湖と倉庫の2つのシステムをさらにカプセル化し、湖と倉庫の異種クラスター情報を保護し、統合されたビッグデータミドルエンドを構築できます。データと一連のタスクを湖と倉庫の間で統合できます。シームレスなスケジューリングと管理。企業は、レイクとウェアハウスの統合データミドルオフィス機能を使用して、データ管理構造を最適化し、データレイクとデータウェアハウスのそれぞれの利点を完全に統合できます。データレイクの柔軟性と開放性を活用するために、データレイクを一元化された生データストレージとして使用します。湖と倉庫のテクノロジーの統合により、生産指向の高周波データとタスクがデータウェアハウスにシームレスにディスパッチされ、パフォーマンスとコストが向上し、将来的には一連の生産指向のデータガバナンスと最適化が実現します。効率と効率の間の最良のバランス。

一般に、MaxCompute、Lake、Warehouseの統合により、企業はより柔軟で効率的かつ経済的なデータプラットフォームソリューションを利用できます。これは、新しいビッグデータプラットフォームを構築する企業や、既存のビッグデータプラットフォームを使用してアーキテクチャをアップグレードする企業に適しています。投資を保護し、資産のリターンを実現できます。

関連記事

より多くの特別オファーを探す

  1. Short Message Service(SMS) & Mail Service

    10,000通のメールで1.99ドルから、120通のテキストメッセージで1ドルから

phone お問い合わせ