このトピックでは、Data Lake Formation (DLF) を使い始める方法について説明します。
前提条件
DLF を使用して作成されたデータレイク内のすべてのデータは、オブジェクトストレージサービス (OSS) に保存されます。レイクデータを保存するには、OSSバケットまたはOSSパスを指定する必要があります。詳細については、「バケットの作成」をご参照ください。
ホームページ
DLF コンソールのホームページは、左側のナビゲーションペインとDLF情報セクションで構成されています。 DLFコンソールは、DLFの主要機能を使用するためのクイックリンクを提供します。 これにより、DLFを簡単に使い始めることができます。
機能紹介
DLFは、メタデータサービス、権限管理、レイク管理、データ探索機能と統合されており、統合されたメタデータ、権限管理、セキュリティ管理、ワンクリックデータ探索機能を提供します。
メタデータ管理
メタデータ管理は、データレイクを効率的に構築するための重要な機能です。メタデータを一元的に体系的に管理できます。 これにより、データ資産の価値と可用性が大幅に向上します。 メタデータ管理機能を使用して、データレイク内のカタログ、データベース、テーブルを管理できます。
カタログの作成
DLF コンソール にログオンします。
左側のナビゲーションペインで、 を選択します。
[カタログリスト] タブをクリックし、[新規カタログ] をクリックします。
入力ボックスに次の情報を入力し、[OK] をクリックします。
カタログID: 必須。一意の識別子であり、重複させることはできません。
説明: オプション。説明情報を入力します。
場所: オプション。デフォルトのストレージパスを入力します。 オブジェクトストレージサービス (OSS) パスのみがサポートされています。
カタログで実行できる操作の詳細については、「データカタログ」をご参照ください。
データベースの作成
Data Lake Formation コンソール にログオンします。
左側のナビゲーションペインで、 を選択します。
[データベース] タブをクリックし、ターゲットの [カタログリスト] を選択し、[データベースの作成] をクリックします。
次のデータベース情報を設定し、[OK] をクリックします。
カタログ: データカタログを選択します。
データベース名: データベース名を入力します。
データベースの説明: オプションで、データベースの説明を入力します。
パスの選択: データベースの場所を入力します。
テーブルの作成
データベースを作成した後、[テーブル] タブをクリックし、ターゲットの [カタログリスト] と [データベース名] を選択し、[テーブルの作成] をクリックします。
次のデータテーブル情報を設定し、[OK] をクリックします。
テーブル名: テーブルの名前を入力します。
カタログ: データカタログを選択します。
データベース: データカタログの下のデータベースを選択します。
テーブルの説明: オプションで、テーブルの説明を入力します。
データストレージの場所: テーブル内のデータが保存される場所を選択します。
フォーマットとシリアル化: テーブルのデータ形式と出力形式を選択します。
区切り文字: オプションで、データ形式がCSVの場合、テーブルの区切り文字を選択します。
テーブルの共通列とパーティションキー列を手動で定義します。 列名、データ型、説明、その他の情報を指定します。
データベースとテーブルで実行できる操作の詳細については、「データベーステーブルと関数」をご参照ください。
メタデータの抽出
メタデータ抽出は、データレイク内のデータを特定の形式で分析し、メタデータ情報を自動的に生成するのに役立ちます。 詳細については、「メタデータディスカバリ」をご参照ください。
メタデータの移行
DLFを使用すると、Hiveメタストアからデータレイクにメタデータを迅速に移行できます。 詳細については、「メタデータ移行」をご参照ください。
権限管理
DLFの権限は、RAM権限とDLFデータ権限の2つの主要カテゴリに分類されます。 ページまたはデータにアクセスするには、2レベルの権限検証に合格する必要があります。
レイク管理
レイク管理機能には、ロケーションホスティング、ストレージの概要、ライフサイクル管理、レイクフォーマット管理、ストレージ権限が含まれます。 ロケーションホスティングが実装されると、DLFを使用して包括的なデータレイク管理を実行できます。
ロケーションホスティングを使用すると、OSSに保存されているデータを管理および分析できます。 詳細については、「ロケーションホスティング」をご参照ください。
ストレージの概要を使用すると、ソースデータ分析とロケーション分析を実行できます。 これにより、ストレージリソースの現在の使用状況を迅速に把握し、潜在的な問題を特定し、できるだけ早く最適化対策を講じることができます。 詳細については、「ストレージの概要」をご参照ください。
ライフサイクル管理を使用すると、データレイク内のデータを管理するためのルールを設定できます。 詳細については、「ライフサイクル管理」をご参照ください。
レイクフォーマット管理を使用すると、レイクフォーマットを最適化するためのポリシーを設定できます。 詳細については、「レイクフォーマット管理」をご参照ください。
ベストプラクティス
DLFを使用すると、データレイク内のメタデータと権限を管理できます。 DLFは、E-MapReduce (EMR)、Realtime Compute for Apache Flink、およびMaxComputeと連携して、メタデータの抽出と移行、およびデータレイクへのデータの取り込みを効率的に実行できます。