Pilih catalog yang tepat untuk metadata data lakehouse - OpenLake

Topik ini membandingkan solusi manajemen metadata DLF dan sistem file yang dikelola sendiri.

Katalog FileSystem: Ringan untuk memulai, tetapi kesulitan menangani beban kerja produksi

Katalog FileSystem mengatur metadata tabel menggunakan struktur direktori, seperti warehouse/dbName.db/tableName. Katalog ini tidak memerlukan layanan eksternal, berfungsi langsung tanpa konfigurasi tambahan, dan merupakan tipe katalog default.

Namun, hal ini memiliki keterbatasan utama berikut:

Penulisan konkuren yang tidak aman: Katalog ini mengandalkan operasi rename di Object Storage untuk mensimulasikan komit. Operasi ini tidak atomik, sehingga berisiko kehilangan data selama penulisan konkuren.
Ketidakmampuan memisahkan compaction: Tanpa layanan metadata terpusat untuk koordinasi, compaction harus disematkan dalam pekerjaan penulisan. Hal ini mengonsumsi sumber daya penulisan dan memengaruhi stabilitas.
Aksi siklus hidup tabel yang tidak efisien: Membuat, menghapus, atau mengganti nama tabel memerlukan traversal sejumlah besar file—proses yang lambat dan rentan kesalahan.
Kinerja pengambilan metadata yang buruk: Semua pengambilan metadata bergantung pada operasi list di Object Storage. Proses ini menyebabkan latensi tinggi dan biaya tinggi untuk tabel besar.
Tidak ada antarmuka atau kemampuan tata kelola: Katalog ini tidak memiliki fitur kelas produksi seperti pemantauan, ikhtisar penyimpanan, kontrol akses, dan manajemen data panas/dingin.

Katalog DLF REST: Mesin metadata terkelola penuh untuk danau data terpadu enterprise

Katalog DLF REST, yang dikembangkan oleh tim Apache Paimon asli, mengelola metadata secara terpusat melalui layanan REST mandiri. Desain ini memisahkan komputasi dari penyimpanan dan dibangun untuk lingkungan produksi berskala besar dengan keandalan tinggi.

Keunggulan utamanya dibanding katalog FileSystem adalah:

Item perbandingan	Katalog FileSystem (dikelola sendiri)	Katalog DLF REST (terkelola penuh)
Penulisan konkuren tinggi yang aman	Object Storage tidak memiliki kemampuan komit atomik, sehingga berisiko kehilangan data selama penulisan konkuren. Compaction harus disematkan, yang memengaruhi stabilitas penulisan.	Metadata menjadi sumber kebenaran tunggal, dan komit berbasis REST menjamin keamanan konkurensi. Compaction sepenuhnya dikelola dan dipisahkan dari proses penulisan.
Optimasi penyimpanan sepenuhnya otomatis	Compaction dan clustering digabungkan dengan pekerjaan penulisan, memerlukan alokasi sumber daya berlebih dan bucketing tetap yang menghambat kinerja serta manajemen file kecil.	Bucketing dan penggabungan adaptif dengan compaction, clustering, serta pembersihan kedaluwarsa otomatis. Sumber daya dijadwalkan secara adaptif.
Metadata dan path yang terpisah	Operasi `DROP` dan `RENAME` memerlukan traversal dan modifikasi semua file, yang lambat dan rentan kesalahan.	Metadata dikelola secara independen. Operasi `DROP` dan `RENAME` selesai dalam hitungan milidetik, sehingga ringan dan andal.
Protokol REST standar	Metadata bergantung pada operasi `list` Object Storage, yang mengakibatkan latensi tinggi, biaya tinggi, dan skalabilitas terbatas.	Menyediakan API REST terbuka dan standar dengan dukungan SDK Java dan Python, memungkinkan integrasi multi-bahasa yang sederhana dan efisien.
Visualisasi dan observabilitas	Tidak ada UI. Metrik harus diperoleh dengan menguraikan sistem file secara manual, sehingga pemantauan waktu nyata tidak mungkin dilakukan.	Konsol menampilkan metrik waktu nyata seperti jumlah baris, jumlah file, dan ukuran penyimpanan. Ikhtisar penyimpanan komprehensif dihasilkan secara otomatis untuk identifikasi masalah yang cepat.
Kontrol akses kelas enterprise	Hanya mendukung ACL sistem file, yang tidak dapat memberikan izin tingkat tabel atau kolom. Hal ini menyulitkan pemenuhan persyaratan kepatuhan.	Mendukung kontrol akses detail halus tingkat tabel dan kolom serta berbagi tabel aman lintas proyek, memenuhi kebutuhan tata kelola dan audit enterprise.
Penjenjangan data panas/dingin	Mengandalkan waktu modifikasi file untuk tiering data. Pendekatan ini tidak selaras dengan logika bisnis dan dapat menyebabkan kesalahan operasional.	Mendukung konfigurasi kebijakan panas/dingin tingkat tabel atau partisi. Hal ini secara tepat mencerminkan semantik bisnis untuk menyeimbangkan kinerja dan biaya.

Penulisan konkuren tinggi yang aman

Katalog FileSystem
Tidak mendukung komit konkuren atomik. Pekerjaan penulisan simultan pada tabel yang sama dapat menyebabkan konflik penggantian nama file dan kehilangan data.
Hal ini memaksa compaction disematkan dalam pekerjaan penulisan, yang memengaruhi stabilitas penulisan dan perencanaan sumber daya.
Katalog DLF REST
Semua penulisan dikirim melalui antarmuka REST. Metadata berperan sebagai sumber kebenaran tunggal, menjamin keamanan konkurensi.
Tugas maintenance seperti compaction ditangani secara otomatis oleh Backend DLF yang sepenuhnya dikelola, dan secara default dipisahkan dari proses penulisan demi stabilitas dan efisiensi.

Optimasi penyimpanan sepenuhnya otomatis

Katalog FileSystem
Optimasi penyimpanan (compaction, clustering) sangat terikat dengan pekerjaan penulisan.
- Setiap penyesuaian kebijakan mengganggu stabilitas penulisan.
- Kegagalan yang sering terjadi sering kali memaksa alokasi sumber daya berlebih, yang berujung pada pemborosan.
- Bucketing tetap menawarkan fleksibilitas terbatas: terlalu sedikit bucket menciptakan bottleneck penulisan, sedangkan terlalu banyak menghasilkan banyak file kecil, sehingga sulit menyeimbangkan kinerja dan biaya.
Katalog DLF REST
Optimasi penyimpanan sepenuhnya otomatis dan terpisah dari pekerjaan penulisan.
- Secara otomatis menangani compaction, clustering, kedaluwarsa partisi, dan kedaluwarsa snapshot.
- Bucketing dan penggabungan adaptif menghilangkan kebutuhan penyetelan manual atau alokasi sumber daya.
- Penggabungan latar belakang memanfaatkan penjadwalan multi-mode dan teknologi native untuk percepatan kinerja.

Metadata dan path yang terpisah

Katalog FileSystem
Sangat mengaitkan path tabel dan metadata. Operasi seperti DROP TABLE atau RENAME lambat dan rentan gagal untuk tabel besar karena memerlukan pemindahan atau penghapusan file data satu per satu.
Katalog DLF REST
Memisahkan metadata dari path fisik. Operasi DROP TABLE dan RENAME berlangsung dalam hitungan milidetik, ringan, dan andal karena hanya memperbarui metadata. Hal ini mencegah file sisa memengaruhi struktur tabel baru.

Protokol REST standar

Katalog FileSystem
Metadata yang disimpan dalam direktori sistem file memerlukan operasi List yang lambat dan mahal untuk pengambilan, menyebabkan latensi tinggi dan ekstensibilitas buruk akibat ketergantungan kuat pada penyimpanan dasar.
Katalog DLF REST
Menawarkan pembacaan/penulisan metadata yang ringan dan cepat melalui protokol REST terbuka dan standar. Dengan menyediakan SDK Java dan Python, integrasi multi-bahasa menjadi lebih sederhana dan kompleksitas bisnis berkurang.

Visualisasi dan observabilitas

Katalog FileSystem
Tidak memiliki antarmuka grafis; informasi tabel (jumlah baris, jumlah file, ukuran) harus diperoleh melalui traversal sistem file secara manual, menghasilkan proses yang rumit, latensi tinggi, dan kesulitan memperoleh status tabel waktu nyata.
Katalog DLF REST
Menyediakan konsol terpadu dengan metrik inti waktu nyata untuk tabel dan partisi (jumlah baris, jumlah file, ukuran total) serta secara otomatis menghasilkan ikhtisar penyimpanan lengkap untuk semua versi tabel. Hal ini memudahkan identifikasi cepat terhadap masalah (misalnya, file kecil, snapshot redundan) dan pengambilan keputusan optimasi yang efisien.

Kontrol akses kelas enterprise

FileSystem Catalog
Izin terbatas pada akses baca/tulis tingkat direktori/file melalui ACL dasar, sehingga tidak memungkinkan kontrol akses tingkat tabel atau kolom dan gagal memenuhi kebutuhan keamanan data dan kepatuhan enterprise.
DLF REST Catalog
Menawarkan kontrol akses berbasis metadata yang detail halus tingkat tabel dan kolom. Fitur ini memungkinkan berbagi tabel aman lintas proyek dan tim, memenuhi persyaratan tata kelola kelas enterprise.

Manajemen data panas dan dingin

Katalog FileSystem
Kebijakan tingkat file berdasarkan waktu modifikasi tidak selaras dengan logika bisnis, sehingga menyebabkan klasifikasi data yang salah dan potensi kehilangan data kritis.
Katalog DLF REST
Mendukung tiering tingkat tabel dan partisi untuk pengendalian siklus hidup data yang selaras dengan bisnis. Hal ini menjamin kinerja tinggi untuk data panas dan biaya rendah untuk data dingin, mengoptimalkan efisiensi dan keamanan.