すべてのプロダクト
Search
ドキュメントセンター

Data Lake Formation:メタデータディスカバリー

最終更新日:Apr 03, 2025

ビジネスの運営に伴い、データレイクには大量のデータが蓄積されます。データウェアハウスで厳密に管理されているデータとは異なり、このデータの一部は、管理または規制されずにデータレイクに保存されているメタデータである可能性があります。メタデータディスカバリーは、特定のフォーマットでデータレイク内のデータを分析し、メタデータ情報を自動的に生成できます。メタデータディスカバリーは、定期的に、または手動で実行して、データレイクの分析と計算のためのスキーマオンリードを実現できます。

制限事項

  1. 抽出されたデータは、標準ストレージの Object Storage Service (OSS) バケットにのみ保存できます。

  2. 現在、メタデータディスカバリーは JSON、CSV、Parquet、ORC、Hudi、Delta、および Avro フォーマットのみをサポートしています。

  3. メタデータ抽出プロセスは計算能力を消費しますが、料金は発生しません。

手順

  1. Data Lake Formation コンソール にログオンします。

  2. 左側のナビゲーションバーで、[メタデータ] >[メタデータディスカバリー] をクリックします。

  3. [メタデータディスカバリー] ページで、[抽出タスクの作成] をクリックします。

  4. メタデータ抽出タスクの構成パラメーターを入力します。次の表にパラメーターを示します。

    パラメーター

    説明

    抽出タスク名

    メタデータ抽出タスクの名前。

    OSS パスの選択

    データの抽出元の OSS バケットパス。パスは oss://<bucket>/<directory path>/<table (optional)>/<partition (optional)>/<file> のフォーマットに従います。DLF は、パスで指定された名前基づいて、テーブルとパーティションを自動的に作成します。

    たとえば、oss://my-bucket/my-path/my-table/dt=1/data.csv パスを指定すると、DLF は dt=1 パーティションを持つ my-table という名前のテーブルを作成し、data.csv ファイルからデータを抽出します。 data.csv ファイルの内容は、作成されたテーブルのスキーマを推測するために使用されます。

    説明

    解析エラーを防ぐために、ディレクトリから .DS_Store ファイルを削除してください。

    除外モード

    指定した OSS パスから除外するファイルパス。正規表現を使用して、除外するファイルパスを照合できます。

    解析フォーマット

    JSON、CSV、Parquet、ORC、Hudi、Delta、Avro のいずれかのフォーマットでの抽出、またはデータファイルを自動的に解析する自動検出モードをサポートします。

    デスティネーションデータベース

    抽出されたメタデータを保存するデータベース。

    デスティネーションテーブルのプレフィックス

    デスティネーションメタデータテーブルの名前を生成するために使用されるプレフィックス。デスティネーションメタデータテーブルの名前は、このプレフィックスとソースファイルの名前で構成されます。

    テーブルフィールドの更新の処理方法

    データの抽出元のソーステーブルに、デスティネーションメタデータテーブルのフィールドとは異なるフィールドが含まれている場合に、更新されたフィールドを処理するために使用される方法。次の方法を使用できます。

    • 列を追加し、既存の列を保持する。

    • テーブルスキーマを更新し、最後に検出されたテーブルスキーマに基づいてテーブル結果を生成する。

    • 更新を無視し、テーブルを変更しない。

    説明

    ORC ファイルは、新しい列の検出をサポートしていません。

    削除された OSS オブジェクトの処理方法

    メタデータ抽出プロセスで OSS バケットのソーステーブルから削除されたデータを処理するために使用される方法。次の方法を使用できます。

    • メタデータを削除する。

    • 更新を無視し、テーブルを削除しない。

    RAM ロール

    メタデータ抽出タスクを実行するために使用されるロール。デフォルト値は AliyunDLFWorkFlowDefaultRole で、DLF 抽出タスクを実行する権限が付与されています。

    実行ポリシー

    • 手動実行: メタデータ抽出タスクを手動で実行します。

    • スケジュール実行: 指定された時間にメタデータ抽出タスクを定期的に実行します。

    抽出ポリシー

    • 部分データ抽出: DLF がメタデータを抽出する場合、各ファイルの部分的なメタデータのみをスキャンします。この抽出方法は短時間で完了します。部分データ抽出の結果の精度は、すべて抽出よりも低くなります。メタデータ編集ページでメタデータ情報を調整できます。

    • すべて抽出: DLF がメタデータを抽出する場合、各ファイルのすべてのメタデータをスキャンします。データ量が多い場合、この抽出方法は時間がかかります。すべて抽出の結果はより正確です。

5. タスク実行の関連パラメーターを確認し、[保存して実行] をクリックします。