Seiring berjalannya bisnis, sejumlah besar data terakumulasi di danau data. Berbeda dengan data yang dikelola secara ketat di gudang data, sebagian data ini mungkin berupa metadata yang disimpan di danau data tanpa pengelolaan atau pengaturan. Penemuan metadata dapat menganalisis data dalam danau data dalam format tertentu dan secara otomatis menghasilkan informasi metadata. Proses ini dapat dilakukan secara berkala atau manual untuk mencapai skema-on-read guna analisis dan komputasi danau data.
Batasan
Data yang diekstraksi hanya dapat disimpan di Bucket Object Storage Service (OSS) penyimpanan standar.
Saat ini, penemuan metadata hanya mendukung format JSON, CSV, Parquet, ORC, Hudi, Delta, dan Avro.
Proses ekstraksi metadata memerlukan daya komputasi tetapi tidak membebani biaya tambahan.
Prosedur
Masuk ke Konsol Data Lake Formation.
Di bilah navigasi kiri, klik Metadata > Metadata Discovery.
Di halaman Metadata Discovery, klik Create Extraction Task..
Masukkan parameter konfigurasi tugas ekstraksi metadata. Tabel berikut menggambarkan parameter:
Parameter
Deskripsi
Extraction Task Name
Nama tugas ekstraksi metadata.
Select OSS Path
Jalur bucket OSS dari mana Anda ingin mengekstrak data. Jalur tersebut mengikuti format
oss://<bucket>/<jalur direktori>/<tabel (opsional)>/<partisi (opsional)>/<file>. DLF akan secara otomatis membuat tabel dan partisi berdasarkan nama yang ditentukan dalam jalur.Sebagai contoh, jika Anda menentukan jalur
oss://my-bucket/my-path/my-table/dt=1/data.csv, DLF akan membuat tabel bernamamy-tabledengan partisidt=1dan mengekstrak data dari file data.csv. Isi file data.csv akan digunakan untuk inferensi skema tabel yang dibuat.CatatanUntuk mencegah kesalahan penguraian, hapus file .DS_Store dari direktori.
Exclusion Mode
Jalur file yang ingin Anda kecualikan dari jalur OSS yang ditentukan. Anda dapat menggunakan ekspresi reguler untuk mencocokkan jalur file yang akan dikecualikan.
Parse Format
Mendukung ekstraksi dalam salah satu format berikut: JSON, CSV, Parquet, ORC, Hudi, Delta, Avro, atau mode deteksi otomatis untuk mengurai file data secara otomatis.
Destination Database
Database tempat Anda ingin menyimpan metadata yang diekstraksi.
Destination Table Prefix
Awalan yang digunakan untuk menghasilkan nama tabel metadata tujuan. Nama tabel metadata tujuan terdiri dari awalan ini dan nama file sumber.
Method of Handle Table Field Update
Metode yang digunakan untuk memproses kolom yang diperbarui jika tabel sumber dari mana data diekstraksi berisi kolom yang berbeda dari yang ada di tabel metadata tujuan. Metode berikut tersedia:
Tambahkan Kolom dan Pertahankan Kolom yang Ada.
Perbarui Skema Tabel dan Hasilkan Hasil Tabel Berdasarkan skema tabel terdeteksi terakhir.
Abaikan Pembaruan dan Jangan Modifikasi Tabel.
CatatanFile ORC tidak mendukung deteksi kolom baru.
Method to Process Deleted OSS objects
Metode yang digunakan untuk memproses data yang dihapus dari tabel sumber di bucket OSS selama proses ekstraksi metadata. Metode berikut tersedia:
Hapus Metadata.
Abaikan Pembaruan dan Jangan Hapus Tabel.
RAM Role
Peran yang digunakan untuk menjalankan tugas ekstraksi metadata. Nilai default adalah
AliyunDLFWorkFlowDefaultRole, yang diberi izin untuk menjalankan tugas ekstraksi DLF.Execution Policy
Manual eksekusi: menjalankan tugas ekstraksi metadata secara manual.
Scheduling eksekusi: menjalankan tugas ekstraksi metadata secara berkala pada waktu yang ditentukan.
Extraction Policy
Partial Data Extraction: Saat DLF mengekstrak metadata, ia hanya memindai sebagian metadata di setiap file. Metode ekstraksi ini membutuhkan waktu singkat. Akurasi hasil ekstraksi data sebagian lebih rendah daripada ekstraksi semua. Anda dapat menyesuaikan informasi metadata di halaman pengeditan metadata.
Extract All: Saat DLF mengekstrak metadata, ia memindai semua metadata di setiap file. Jika jumlah data besar, metode ekstraksi ini memakan waktu lama. Hasil ekstraksi semua lebih akurat.
5. Konfirmasikan parameter relevan untuk eksekusi tugas, lalu klik Save and Execute..