Gunakan Metadata Discovery untuk menghasilkan metadata secara otomatis dari OSS data - Data Lake Formation

Seiring berjalannya bisnis, sejumlah besar data terakumulasi di danau data. Berbeda dengan data yang dikelola secara ketat di gudang data, sebagian data ini mungkin berupa metadata yang disimpan di danau data tanpa pengelolaan atau pengaturan. Penemuan metadata dapat menganalisis data dalam danau data dalam format tertentu dan secara otomatis menghasilkan informasi metadata. Proses ini dapat dilakukan secara berkala atau manual untuk mencapai skema-on-read guna analisis dan komputasi danau data.

Batasan

Data yang diekstraksi hanya dapat disimpan di Bucket Object Storage Service (OSS) penyimpanan standar.
Saat ini, penemuan metadata hanya mendukung format JSON, CSV, Parquet, ORC, Hudi, Delta, dan Avro.
Proses ekstraksi metadata memerlukan daya komputasi tetapi tidak membebani biaya tambahan.

Prosedur

Masuk ke Konsol Data Lake Formation.
Di bilah navigasi kiri, klik Metadata > Metadata Discovery.
Di halaman Metadata Discovery, klik Create Extraction Task..

Masukkan parameter konfigurasi tugas ekstraksi metadata. Tabel berikut menggambarkan parameter:

Parameter	Deskripsi
Extraction Task Name	Nama tugas ekstraksi metadata.
Select OSS Path	Jalur bucket OSS dari mana Anda ingin mengekstrak data. Jalur tersebut mengikuti format `oss://<bucket>/<jalur direktori>/<tabel (opsional)>/<partisi (opsional)>/<file>`. DLF akan secara otomatis membuat tabel dan partisi berdasarkan nama yang ditentukan dalam jalur. Sebagai contoh, jika Anda menentukan jalur `oss://my-bucket/my-path/my-table/dt=1/data.csv`, DLF akan membuat tabel bernama `my-table` dengan partisi `dt=1` dan mengekstrak data dari file data.csv. Isi file data.csv akan digunakan untuk inferensi skema tabel yang dibuat. Catatan Untuk mencegah kesalahan penguraian, hapus file .DS_Store dari direktori.
Exclusion Mode	Jalur file yang ingin Anda kecualikan dari jalur OSS yang ditentukan. Anda dapat menggunakan ekspresi reguler untuk mencocokkan jalur file yang akan dikecualikan.
Parse Format	Mendukung ekstraksi dalam salah satu format berikut: JSON, CSV, Parquet, ORC, Hudi, Delta, Avro, atau mode deteksi otomatis untuk mengurai file data secara otomatis.
Destination Database	Database tempat Anda ingin menyimpan metadata yang diekstraksi.
Destination Table Prefix	Awalan yang digunakan untuk menghasilkan nama tabel metadata tujuan. Nama tabel metadata tujuan terdiri dari awalan ini dan nama file sumber.
Method of Handle Table Field Update	Metode yang digunakan untuk memproses kolom yang diperbarui jika tabel sumber dari mana data diekstraksi berisi kolom yang berbeda dari yang ada di tabel metadata tujuan. Metode berikut tersedia: Tambahkan Kolom dan Pertahankan Kolom yang Ada. Perbarui Skema Tabel dan Hasilkan Hasil Tabel Berdasarkan skema tabel terdeteksi terakhir. Abaikan Pembaruan dan Jangan Modifikasi Tabel. Catatan File ORC tidak mendukung deteksi kolom baru.
Method to Process Deleted OSS objects	Metode yang digunakan untuk memproses data yang dihapus dari tabel sumber di bucket OSS selama proses ekstraksi metadata. Metode berikut tersedia: Hapus Metadata. Abaikan Pembaruan dan Jangan Hapus Tabel.
RAM Role	Peran yang digunakan untuk menjalankan tugas ekstraksi metadata. Nilai default adalah `AliyunDLFWorkFlowDefaultRole`, yang diberi izin untuk menjalankan tugas ekstraksi DLF.
Execution Policy	Manual eksekusi: menjalankan tugas ekstraksi metadata secara manual. Scheduling eksekusi: menjalankan tugas ekstraksi metadata secara berkala pada waktu yang ditentukan.
Extraction Policy	Partial Data Extraction: Saat DLF mengekstrak metadata, ia hanya memindai sebagian metadata di setiap file. Metode ekstraksi ini membutuhkan waktu singkat. Akurasi hasil ekstraksi data sebagian lebih rendah daripada ekstraksi semua. Anda dapat menyesuaikan informasi metadata di halaman pengeditan metadata. Extract All: Saat DLF mengekstrak metadata, ia memindai semua metadata di setiap file. Jika jumlah data besar, metode ekstraksi ini memakan waktu lama. Hasil ekstraksi semua lebih akurat.

5. Konfirmasikan parameter relevan untuk eksekusi tugas, lalu klik Save and Execute..