データレイクとは|データレイクの基本アーキテクチャ

現在、データレイクの概念は非常に注目されています。多くの人が、データレイクの構築方法、Alibaba Cloudに成熟したデータレイクソリューションがあるかどうか、Alibaba Cloudのデータレイクソリューションが実際に実装されているかどうか、データレイクとデータレイクとビッグデータプラットフォームなどの違いは何ですか?このシリーズの記事では、データレイクを分析します。

この記事の内容は次のとおりです。1。データレイクとは2.データレイクの基本アーキテクチャ3.クラウドベースのデータレイクフレームワーク。次の記事では、データレイクとデータウェアハウスの違いを紹介します。

1.データレイクとは

データレイクの構築を計画する前に、データレイクとは何かを理解し、データレイクプロジェクトの基本的なコンポーネントを明確にしてから、データレイクの基本的なアーキテクチャを設計することが非常に重要です。

データレイクは、複数のデータ入力方法に接続できる統合ストレージプールであり、任意の規模の構造化データ、半構造化データ、および非構造化データを保存できます。データレイクは、さまざまなコンピューティングおよび分析プラットフォームとシームレスに接続し、データを直接処理および分析し、サイロを分解し、ビジネス価値への洞察を得ることができます。同時に、データレイクは、データのライフサイクル全体をカバーする、ホットレイヤーとコールドレイヤーの間で変換する機能を提供します。

データレイクには多くの定義がありますが、基本的には次の特性を中心に展開されます。
(1)データレイクは、企業/組織内のすべてのデータを格納する十分なデータストレージ容量を提供する必要があります。
(2)データレイクは、構造化データ、半構造化データ、非構造化データなど、あらゆるタイプの大量のデータを格納できます。
(3)データレイク内のデータは、ビジネスデータの完全なコピーである元のデータです。データレイク内のデータは、ビジネスシステム内のデータと同じ状態を維持します。
(4)データレイクには、データソース、データ形式、接続情報、データスキーマ、権限管理など、さまざまなデータ関連要素を管理できる完全なデータ管理機能(完全なメタデータ)が必要です。
(5)データレイクには、バッチ処理、ストリームコンピューティング、インタラクティブ分析、機械学習などの多様な分析機能が必要です。同時に、特定のタスクスケジューリングおよび管理機能も提供する必要があります。
(6)データレイクには、完全なデータライフサイクル管理機能が必要です。元のデータを保存するだけでなく、さまざまな分析と処理の中間結果を保存し、データの分析と処理プロセスを完全に記録できるようにする必要があります。これにより、ユーザーは完全かつ詳細な方法でのデータ。
(7)データレイクには、完全なデータ取得およびデータ解放機能が必要です。データレイクは、さまざまなデータソースをサポートし、関連するデータソースから完全/増分データを取得できる必要があります。その後、ストレージを標準化します。データレイクは、データ分析と処理の結果を適切なストレージエンジンにプッシュして、さまざまなアプリケーションアクセス要件を満たすことができます。
(8)超大容量ストレージおよびスケーラブルな大規模データ処理機能を含むビッグデータのサポート。

したがって、データレイクは、ビッグデータのストレージ、処理、分析のための進化するスケーラブルなインフラストラクチャである必要があります。データ指向で、あらゆるソース、あらゆる速度、あらゆる規模、あらゆるタイプのデータの完全な取得と完全なストレージを実現します。 -モード処理と完全なライフサイクル管理。さまざまな外部の異種データソースとの相互作用と統合を通じて、さまざまなエンタープライズレベルのアプリケーションをサポートします。

2.データレイクの基本アーキテクチャ

データレイクはフラットなアーキテクチャを備えています。これは、データが非構造化、半構造化、または構造化され、組織内のさまざまなソースから収集される可能性があるのに対し、データウェアハウスはデータをファイルまたはフォルダー内のファイルに格納するためです。データレイクは、オンプレミスまたはクラウドでホストできます。

そのアーキテクチャ上の特徴により、データレイクはエクサバイトまで大規模にスケールアップできます。データレイクを作成するとき、保持する必要のあるデータの量がわからないことが多いため、これは重要です。従来のデータストレージシステムは、このように拡張することはできません。

このアーキテクチャは、データサイエンティストがエンタープライズデータをマイニングおよび探索し、データ(異なるドメインからの異種データを含む)を共有および相互参照して質問をしたり、新しい分析を見つけたりできるため、非常に容易になります。また、ビッグデータ分析と機械学習を使用して、データレイク内のデータを分析することもできます。

データレイクに保存される前のデータのパターンは固定されていませんが、データガバナンスを使用すると、データの浪費を効果的に回避できます。その後のアクセスを確実にするために、データレイクに保存するときにデータをメタデータとしてマークする必要があります。

3.クラウドベースのデータレイクフレームワーク

データレイクの柱には、スケーラブルで耐久性のあるデータストレージ、データを収集および整理するメカニズム、データを処理および分析して結果を共有するためのツールが含まれます。したがって、ビッグデータが意味するあらゆるタイプのデータをサポートするために、最新のデータレイクに含める必要のある主要なテクノロジーに焦点を当てています。

クラウドには無制限のリソースがあります。クラウドベースのサービスは、無制限のリソースを提供するため、データレイクに特に適しています。つまり、クラウドインフラストラクチャは、何も心配することなく、オンデマンドでほぼ無制限のリソースを数分または数秒で提供できます。組織は使用した分だけ支払いを行うため、パフォーマンスを低下させることなく、あらゆるサイズのユーザーとワークロードを動的にサポートできます。

お金を節約し、データのクラウドテクノロジーに集中します。クラウドベースのサービスは、高価なハードウェア、ソフトウェア、その他のインフラストラクチャ、先行投資、およびオンプレミスシステムの保守、更新、保護のコストを回避するクラウド構築ソリューションを組織に提供します。

クラウドテクノロジーには、自然な統合ポイントが付属しています。分析するデータの最大80%は、ビジネスアプリケーションデータ、運用データストア、クリックストリームデータ、ソーシャルメディアプラットフォーム、IoTモノ、およびリアルタイムストリーミングデータからのものであると推定されています。このデータをクラウドに統合することは、オンプレミスのデータセンターを構築するよりもはるかに簡単で安価です。

noSQLを使用した組み込み。コンピューターやソーシャルメディアから生成されたものなど、更新された形式でデータを保存および分析して、組織のデータ分析を強化および拡張できるテクノロジーについて説明します。従来のデータウェアハウスでは、これらのデータ型にうまく対応できないことはよく知られています。その結果、JSON、Avro、XMLなど、これらの半構造化および非構造化データ形式を処理するための新しいシステムが近年登場しています。

既存のスキルと専門知識をサポートします。 Data Lakeは、あらゆるタイプのデータ、データ管理、データ変換、統合、視覚化、ビジネスインテリジェンス、およびSQLデータウェアハウスと簡単に通信できる分析ツールを効率的に保存および処理するために必要な機能をサポートします。標準SQLの定着した役割は、多くの人々がSQLスキルを持っていることも意味します。他のプログラミング言語がデータを抽出して分析できるようにします。

コスト、規模、パフォーマンス、使いやすさ、セキュリティの面でのクラウドの固有の利点は、データレイク全体の計画と結果に影響を与えるため、明確に認識する必要があります。

クラウドとデータレイクの共存について詳しく知りたい場合は、「2022Alibaba Cloudグローバルオンラインデータレイクサミット」に参加して、最新のトレンドを確認してください。

関連記事

より多くの特別オファーを探す

  1. Short Message Service(SMS) & Mail Service

    10,000通のメールで1.99ドルから、120通のテキストメッセージで1ドルから

phone お問い合わせ