Katalog data adalah entitas tingkat teratas dari metadata di Data Lake Formation (DLF). Katalog ini dapat berisi beberapa database. Topik ini menjelaskan operasi dasar katalog data.
Skenario
Katalog data digunakan dalam skenario isolasi metadata. Sebagai contoh, beberapa kluster E-MapReduce (EMR), masing-masing terhubung ke katalog yang berbeda. Metadata antara kluster EMR tidak saling terlihat.
Operasi Dasar
Membuat katalog data
Masuk ke Konsol DLF.
Di panel navigasi sebelah kiri, pilih .
Klik tab Catalog List, lalu klik New Catalog.
Masukkan informasi berikut di kotak input, lalu klik OK.
Catalog ID: Wajib. Ini adalah pengenal unik dan tidak boleh diduplikasi.
Description: Opsional. Masukkan deskripsi.
Location: Opsional. Masukkan jalur penyimpanan default. Hanya jalur Object Storage Service (OSS) yang didukung.
Menampilkan katalog data
Di panel navigasi sebelah kiri, pilih .
Klik tab Catalog List untuk melihat daftar katalog.
Memodifikasi katalog data
Di panel navigasi sebelah kiri, pilih .
Klik tab Catalog List.
Di halaman daftar katalog data, klik Edit di kolom Actions.
Modifikasi informasi berikut di kotak input, lalu klik OK.
Description: Opsional. Masukkan deskripsi.
Location: Opsional. Masukkan jalur penyimpanan default; hanya jalur OSS yang didukung.
Menghapus katalog data
Setelah dihapus, data tidak dapat dipulihkan.
Di panel navigasi sebelah kiri, pilih .
Klik tab Catalog List.
Di halaman daftar katalog data, klik Delete pada kolom Actions.
Di kotak dialog konfirmasi yang muncul, klik Delete untuk menyelesaikan penghapusan katalog.
Operasi adaptasi dengan mesin komputasi
Cara memodifikasi katalog data dari kluster E-MapReduce
Setelah memodifikasi Catalog ID DLF yang terikat pada kluster E-MapReduce, kluster tersebut akan menunjuk ke Catalog ID baru. Perubahan ini menyebabkan operasi pada database, tabel, dan pekerjaan yang sedang berjalan di katalog asli menjadi tidak valid. Harap pertimbangkan sepenuhnya dampaknya sebelum beralih.
Adaptasi mesin Hive
Di file core-site.xml layanan Hive, tambahkan item konfigurasi berikut. Untuk informasi lebih lanjut, lihat Mengelola Item Konfigurasi.
Kunci
Nilai
dlf.catalog.id
ID Katalog DLF.
Terapkan konfigurasi ini.
Klik Save. Setelah disimpan, klik Deploy Client Configuration.
Di kotak dialog yang muncul, masukkan Execution Reason, lalu klik OK.
Mulai ulang layanan Hive.
Di halaman konfigurasi layanan Hive, klik .
Di kotak dialog yang muncul, masukkan Execution Reason, lalu klik OK.
Setelah berhasil dimulai ulang, status Hive menjadi Healthy, dan modifikasi ID Katalog selesai.
Adaptasi mesin Spark
Modifikasi file hive-site.xml layanan Spark. Untuk informasi lebih lanjut, lihat Adaptasi Mesin Hive.
Untuk EMR 5.6.0, 3.40.0, dan versi sebelumnya, Anda tidak perlu memodifikasi konfigurasi ini secara terpisah untuk Spark. Ini menggunakan konfigurasi Hive, dan hanya konfigurasi Hive yang perlu dimodifikasi.
Adaptasi mesin Presto
Modifikasi file hive.properties layanan Presto. Untuk informasi lebih lanjut, lihat Adaptasi Mesin Hive.
Fitur ini hanya didukung di EMR 5.8.0, 3.42.0, dan versi selanjutnya.
Adaptasi mesin Impala
Anda tidak perlu memodifikasi konfigurasi Impala secara terpisah. Ini menggunakan konfigurasi Hive, dan hanya konfigurasi Hive yang perlu dimodifikasi.