ビジネスの運営に伴い、データレイクには大量のデータが蓄積されます。データウェアハウスで厳密に管理されているデータとは異なり、このデータの一部は、管理または規制されずにデータレイクに保存されているメタデータである可能性があります。メタデータディスカバリーは、特定のフォーマットでデータレイク内のデータを分析し、メタデータ情報を自動的に生成できます。メタデータディスカバリーは、定期的に、または手動で実行して、データレイクの分析と計算のためのスキーマオンリードを実現できます。
制限事項
抽出されたデータは、標準ストレージの Object Storage Service (OSS) バケットにのみ保存できます。
現在、メタデータディスカバリーは JSON、CSV、Parquet、ORC、Hudi、Delta、および Avro フォーマットのみをサポートしています。
メタデータ抽出プロセスは計算能力を消費しますが、料金は発生しません。
手順
Data Lake Formation コンソール にログオンします。
左側のナビゲーションバーで、[メタデータ] >[メタデータディスカバリー] をクリックします。
[メタデータディスカバリー] ページで、[抽出タスクの作成] をクリックします。
メタデータ抽出タスクの構成パラメーターを入力します。次の表にパラメーターを示します。
パラメーター
説明
抽出タスク名
メタデータ抽出タスクの名前。
OSS パスの選択
データの抽出元の OSS バケットパス。パスは
oss://<bucket>/<directory path>/<table (optional)>/<partition (optional)>/<file>のフォーマットに従います。DLF は、パスで指定された名前基づいて、テーブルとパーティションを自動的に作成します。たとえば、
oss://my-bucket/my-path/my-table/dt=1/data.csvパスを指定すると、DLF はdt=1パーティションを持つmy-tableという名前のテーブルを作成し、data.csv ファイルからデータを抽出します。 data.csv ファイルの内容は、作成されたテーブルのスキーマを推測するために使用されます。説明解析エラーを防ぐために、ディレクトリから .DS_Store ファイルを削除してください。
除外モード
指定した OSS パスから除外するファイルパス。正規表現を使用して、除外するファイルパスを照合できます。
解析フォーマット
JSON、CSV、Parquet、ORC、Hudi、Delta、Avro のいずれかのフォーマットでの抽出、またはデータファイルを自動的に解析する自動検出モードをサポートします。
デスティネーションデータベース
抽出されたメタデータを保存するデータベース。
デスティネーションテーブルのプレフィックス
デスティネーションメタデータテーブルの名前を生成するために使用されるプレフィックス。デスティネーションメタデータテーブルの名前は、このプレフィックスとソースファイルの名前で構成されます。
テーブルフィールドの更新の処理方法
データの抽出元のソーステーブルに、デスティネーションメタデータテーブルのフィールドとは異なるフィールドが含まれている場合に、更新されたフィールドを処理するために使用される方法。次の方法を使用できます。
列を追加し、既存の列を保持する。
テーブルスキーマを更新し、最後に検出されたテーブルスキーマに基づいてテーブル結果を生成する。
更新を無視し、テーブルを変更しない。
説明ORC ファイルは、新しい列の検出をサポートしていません。
削除された OSS オブジェクトの処理方法
メタデータ抽出プロセスで OSS バケットのソーステーブルから削除されたデータを処理するために使用される方法。次の方法を使用できます。
メタデータを削除する。
更新を無視し、テーブルを削除しない。
RAM ロール
メタデータ抽出タスクを実行するために使用されるロール。デフォルト値は
AliyunDLFWorkFlowDefaultRoleで、DLF 抽出タスクを実行する権限が付与されています。実行ポリシー
手動実行: メタデータ抽出タスクを手動で実行します。
スケジュール実行: 指定された時間にメタデータ抽出タスクを定期的に実行します。
抽出ポリシー
部分データ抽出: DLF がメタデータを抽出する場合、各ファイルの部分的なメタデータのみをスキャンします。この抽出方法は短時間で完了します。部分データ抽出の結果の精度は、すべて抽出よりも低くなります。メタデータ編集ページでメタデータ情報を調整できます。
すべて抽出: DLF がメタデータを抽出する場合、各ファイルのすべてのメタデータをスキャンします。データ量が多い場合、この抽出方法は時間がかかります。すべて抽出の結果はより正確です。
5. タスク実行の関連パラメーターを確認し、[保存して実行] をクリックします。