すべてのプロダクト
Search
ドキュメントセンター

Data Lake Formation:開始方法

最終更新日:Jan 12, 2025

このトピックでは、Data Lake Formation (DLF) を使い始める方法について説明します。

前提条件

DLF を使用して作成されたデータレイク内のすべてのデータは、オブジェクトストレージサービス (OSS) に保存されます。レイクデータを保存するには、OSSバケットまたはOSSパスを指定する必要があります。詳細については、「バケットの作成」をご参照ください。

ホームページ

DLF コンソールのホームページは、左側のナビゲーションペインとDLF情報セクションで構成されています。 DLFコンソールは、DLFの主要機能を使用するためのクイックリンクを提供します。 これにより、DLFを簡単に使い始めることができます。

機能紹介

DLFは、メタデータサービス、権限管理、レイク管理、データ探索機能と統合されており、統合されたメタデータ、権限管理、セキュリティ管理、ワンクリックデータ探索機能を提供します。

メタデータ管理

メタデータ管理は、データレイクを効率的に構築するための重要な機能です。メタデータを一元的に体系的に管理できます。 これにより、データ資産の価値と可用性が大幅に向上します。 メタデータ管理機能を使用して、データレイク内のカタログ、データベース、テーブルを管理できます。

カタログの作成

  1. DLF コンソール にログオンします。

  2. 左側のナビゲーションペインで、[メタデータ] > [メタデータ] を選択します。

  3. [カタログリスト] タブをクリックし、[新規カタログ] をクリックします。

  4. 入力ボックスに次の情報を入力し、[OK] をクリックします。

    • カタログID: 必須。一意の識別子であり、重複させることはできません。

    • 説明: オプション。説明情報を入力します。

    • 場所: オプション。デフォルトのストレージパスを入力します。 オブジェクトストレージサービス (OSS) パスのみがサポートされています。

カタログで実行できる操作の詳細については、「データカタログ」をご参照ください。

データベースの作成

  1. Data Lake Formation コンソール にログオンします。

  2. 左側のナビゲーションペインで、[メタデータ] > [メタデータ] を選択します。

  3. [データベース] タブをクリックし、ターゲットの [カタログリスト] を選択し、[データベースの作成] をクリックします。

  4. 次のデータベース情報を設定し、[OK] をクリックします。

    • カタログ: データカタログを選択します。

    • データベース名: データベース名を入力します。

    • データベースの説明: オプションで、データベースの説明を入力します。

    • パスの選択: データベースの場所を入力します。

テーブルの作成

  1. データベースを作成した後、[テーブル] タブをクリックし、ターゲットの [カタログリスト][データベース名] を選択し、[テーブルの作成] をクリックします。

  2. 次のデータテーブル情報を設定し、[OK] をクリックします。

    • テーブル名: テーブルの名前を入力します。

    • カタログ: データカタログを選択します。

    • データベース: データカタログの下のデータベースを選択します。

    • テーブルの説明: オプションで、テーブルの説明を入力します。

    • データストレージの場所: テーブル内のデータが保存される場所を選択します。

    • フォーマットとシリアル化: テーブルのデータ形式と出力形式を選択します。

    • 区切り文字: オプションで、データ形式がCSVの場合、テーブルの区切り文字を選択します。

    • テーブルの共通列とパーティションキー列を手動で定義します。 列名、データ型、説明、その他の情報を指定します。

データベースとテーブルで実行できる操作の詳細については、「データベーステーブルと関数」をご参照ください。

メタデータの抽出

メタデータ抽出は、データレイク内のデータを特定の形式で分析し、メタデータ情報を自動的に生成するのに役立ちます。 詳細については、「メタデータディスカバリ」をご参照ください。

メタデータの移行

DLFを使用すると、Hiveメタストアからデータレイクにメタデータを迅速に移行できます。 詳細については、「メタデータ移行」をご参照ください。

権限管理

DLFの権限は、RAM権限とDLFデータ権限の2つの主要カテゴリに分類されます。 ページまたはデータにアクセスするには、2レベルの権限検証に合格する必要があります。

  • RAM 権限: すべての DLF API オペレーションへのアクセスを制御し、RAM ユーザーが特定の DLF API オペレーションまたはページにアクセスできるかどうかを決定します。詳細については、権限の説明」をご参照ください。

  • DLFデータ権限: データベース、テーブル、列、関数、カタログなどのDLF内部リソースへのアクセスと使用を制御します。

    • データ権限の詳細については、「データ権限」をご参照ください。

    • 承認の詳細については、「データ承認」をご参照ください。

レイク管理

レイク管理機能には、ロケーションホスティング、ストレージの概要、ライフサイクル管理、レイクフォーマット管理、ストレージ権限が含まれます。 ロケーションホスティングが実装されると、DLFを使用して包括的なデータレイク管理を実行できます。

  • ロケーションホスティングを使用すると、OSSに保存されているデータを管理および分析できます。 詳細については、「ロケーションホスティング」をご参照ください。

  • ストレージの概要を使用すると、ソースデータ分析とロケーション分析を実行できます。 これにより、ストレージリソースの現在の使用状況を迅速に把握し、潜在的な問題を特定し、できるだけ早く最適化対策を講じることができます。 詳細については、「ストレージの概要」をご参照ください。

  • ライフサイクル管理を使用すると、データレイク内のデータを管理するためのルールを設定できます。 詳細については、「ライフサイクル管理」をご参照ください。

  • レイクフォーマット管理を使用すると、レイクフォーマットを最適化するためのポリシーを設定できます。 詳細については、「レイクフォーマット管理」をご参照ください。

ベストプラクティス

DLFを使用すると、データレイク内のメタデータと権限を管理できます。 DLFは、E-MapReduce (EMR)、Realtime Compute for Apache Flink、およびMaxComputeと連携して、メタデータの抽出と移行、およびデータレイクへのデータの取り込みを効率的に実行できます。