Apa itu katalog data? - Data Lake Formation - Alibaba Cloud Documentation Center

Katalog data adalah entitas metadata tingkat teratas dalam Data Lake Formation (DLF) dan dapat berisi beberapa database. Anda dapat membuat, melihat, mengedit, dan menghapus katalog data, serta mengikatnya ke mesin komputasi untuk isolasi metadata.

Kasus penggunaan

Katalog data terutama digunakan untuk isolasi metadata. Misalnya, beberapa kluster E-MapReduce (EMR) masing-masing dapat diikat ke katalog data yang berbeda sehingga metadata tidak terlihat lintas kluster.

Operasi dasar

Buat katalog data

Masuk ke Konsol Data Lake Formation.
Di panel navigasi sebelah kiri, pilih Metadata > Metadata.
Klik tab Catalogs, lalu klik New Catalog.
Konfigurasikan parameter berikut dan klik OK.
- Catalog ID: Wajib diisi. Merupakan pengenal unik untuk katalog data.
- Description: Opsional. Deskripsi katalog data.
- Location: Opsional. Jalur penyimpanan default. Hanya jalur OSS yang didukung.

Lihat katalog data

Di panel navigasi sebelah kiri, pilih Metadata > Metadata.
Klik tab Catalogs untuk melihat daftar katalog data.

Edit katalog data

Di panel navigasi sebelah kiri, pilih Metadata > Metadata.
Klik tab Catalogs.
Pada daftar katalog data, temukan katalog yang akan diedit dan klik Modify di kolom Actions.
Ubah parameter sesuai kebutuhan dan klik OK.
- Description: Opsional. Deskripsi katalog data.
- Location: Opsional. Jalur penyimpanan default. Hanya jalur OSS yang didukung.

Hapus katalog data

Peringatan

Aksi ini tidak dapat dikembalikan. Katalog data yang dihapus beserta datanya tidak dapat dipulihkan. Lakukan dengan hati-hati.

Di panel navigasi sebelah kiri, pilih Metadata > Metadata.
Klik tab Catalogs.
Pada daftar katalog data, temukan katalog yang akan dihapus dan klik Delete di kolom Actions.
Pada kotak dialog, klik Delete.

Integrasi mesin komputasi

Ubah katalog data kluster E-MapReduce

Penting

Setelah Anda mengubah Catalog ID Data Lake Formation (DLF) yang diikat ke kluster E-MapReduce (EMR), kluster tersebut akan mengarah ke Catalog ID baru. Perubahan ini membatalkan operasi pada database dan tabel di katalog data asli serta menyebabkan pekerjaan yang sedang berjalan gagal. Pastikan Anda memahami sepenuhnya dampaknya sebelum melanjutkan.

Integrasi mesin Hive

Pada file Hive core-site.xml, tambahkan item konfigurasi berikut. Untuk informasi selengkapnya, lihat Tambahkan item konfigurasi.

Parameter

Nilai

dlf.catalog.id

ID katalog data DLF.
Terapkan konfigurasi tersebut.
1. Klik Save. Setelah menyimpan konfigurasi, klik Deploy Client Configuration.
2. Pada kotak dialog, masukkan Execution Reason dan klik OK.
Restart layanan Hive.
1. Pada halaman konfigurasi layanan Hive, pilih More > Restart.
2. Pada kotak dialog, masukkan Execution Reason dan klik OK.
  
  Setelah layanan direstart, status layanan Hive berubah menjadi Healthy, yang menandakan bahwa perubahan Catalog ID telah berhasil.

Integrasi mesin Spark

Ubah file Spark hive-site.xml. Untuk langkah-langkah detail, lihat bagian Integrasi mesin Hive.

Catatan

Untuk versi EMR 5.6.0, 3.40.0, dan sebelumnya, Anda hanya perlu mengubah konfigurasi Hive karena Spark secara otomatis menggunakannya.

Integrasi mesin Presto

Ubah file Presto hive.properties. Untuk langkah-langkah detail, lihat bagian Integrasi mesin Hive.

Catatan

Fitur ini hanya didukung pada versi EMR 5.8.0, 3.42.0, dan yang lebih baru.

Integrasi mesin Impala

Catatan

Anda hanya perlu mengubah konfigurasi Hive karena Impala secara otomatis menggunakannya.

Parameter	Nilai
dlf.catalog.id	ID katalog data DLF.