Secara default, EMR Serverless Spark menggunakan Hive metastore bawaan yang terikat pada siklus hidup kluster—metadata dihapus saat kluster dihapus dan tidak dapat dibagikan antar kluster. Untuk beban kerja produksi dan lingkungan multi-kluster, hubungkan ke layanan metadata eksternal agar metadata tetap tersimpan secara independen dari kluster mana pun.
Metastore bawaan vs eksternal
Pilih berdasarkan kebutuhan beban kerja Anda:
Built-in metastore
Metadata dihapus saat kluster dihapus.
Tidak dapat dibagikan antar kluster atau jenis kluster.
Hanya cocok untuk pengembangan dan pengujian.
External metastore
Metadata tetap tersimpan secara independen dari siklus hidup kluster mana pun.
Beberapa kluster dapat terhubung ke metastore yang sama secara simultan.
Mendukung berbagi skema antara data lake dan data warehouse.
Disarankan untuk beban kerja produksi.
Jenis koneksi yang didukung
EMR Serverless Spark mendukung layanan metadata eksternal berikut: