Katalog data merupakan entitas metadata tingkat teratas dalam Data Lake Formation (DLF) atau Hive Metastore (HMS) dan dapat berisi beberapa database. Di EMR Serverless Spark, Anda dapat melihat database dan tabel dalam katalog data yang telah disambungkan serta menambahkan katalog data yang sudah ada. Fitur ini berguna untuk skenario yang memerlukan isolasi metadata.
Pekerjaan interaktif yang dikirim melalui Livy atau Kyuubi hanya dapat mengakses katalog default (Default Catalog). Akses konkuren ke beberapa jenis katalog data tidak didukung.
Tambahkan katalog data
Buka halaman Data Catalog.
Login ke Konsol EMR.
Di panel navigasi sebelah kiri, pilih .
Di halaman Spark, klik nama ruang kerja yang dituju.
Di halaman EMR Serverless Spark, klik Data Catalog di panel navigasi sebelah kiri.
CatatanHalaman Data Catalog menampilkan database dan tabel dalam katalog data DLF yang dipilih saat kluster dibuat.
Klik Add Data Catalog.
Di kotak dialog Add Data Catalog, konfigurasikan parameter berikut, lalu klik Add.
DLF Data Catalog: Layanan manajemen metadata yang digunakan untuk mengelola dan melakukan kueri terhadap metadata yang disimpan di data lake. Anda dapat memilih katalog data DLF yang sudah ada atau membuat yang baru untuk mengakses metadata di data lake Anda secara cepat.
Untuk membuat katalog data DLF baru, klik Create Data Catalog. Anda kemudian akan diarahkan ke Konsol Data Lake Formation. Untuk informasi selengkapnya, lihat Manajemen Metadata.
CatatanUntuk menggunakan katalog data DLF, Anda harus menggunakan salah satu versi engine berikut: esr-4.3.0 atau lebih baru, esr-3.3.0 atau lebih baru, atau esr-2.7.0 atau lebih baru.
External Hive Metastore: Layanan metadata independen yang biasanya digunakan untuk mengelola metadata tabel Hive. Anda dapat mengonfigurasi layanan ini untuk mengintegrasikan metadata dari Hive Metastore eksternal ke lingkungan Anda saat ini.
Untuk menggunakan metode ini, pastikan EMR Serverless Spark dapat terhubung ke VPC tempat layanan tersebut berada.
Parameter
Deskripsi
Network Connectivity
Koneksi jaringan antara lingkungan Anda dan VPC Hive Metastore eksternal.
Pilih nama koneksi jaringan yang telah dibuat dari daftar drop-down. Untuk informasi selengkapnya, lihat Langkah 1: Tambahkan koneksi jaringan.
Metastore Service Address
Alamat layanan Hive Metastore eksternal. Formatnya adalah
thrift://<metastore-host>:<port>.Di mana:
<metastore-host>: hostname atau alamat IP layanan Hive Metastore.<port>: nomor port layanan Hive Metastore. Nilai default-nya adalah9083.
Otentikasi Kerberos
Jika otentikasi Kerberos diaktifkan untuk Hive Metastore eksternal Anda, tentukan path file keytab dan nama principal.
Kerberos Keytab File Path: Path file keytab Kerberos.
Kerberos principal: Nama principal dalam file keytab. Principal ini digunakan untuk verifikasi identitas dengan layanan Kerberos.
CatatanGunakan perintah
klist -kt <keytab_file>untuk melihat nama principal dalam file keytab yang dituju.
Lihat database dan tabel
Di halaman Data Catalog, klik ID katalog data.
Halaman ini menampilkan informasi semua database dalam katalog data tersebut.
Di kolom Actions, klik Tables.
Halaman ini menampilkan informasi semua tabel dalam database tersebut.
Di kolom Actions, klik Column Information.
Halaman ini menampilkan informasi tabel dan kolom untuk tabel yang dipilih.
Referensi
Untuk informasi selengkapnya tentang cara menambahkan layanan Metastore eksternal, lihat Hubungkan ke Layanan Hive Metastore Eksternal.