Arsitektur data lakehouse Apache Hudi pada OSS-AnalyticDB untuk MySQL-Alibaba Cloud

Apache Hudi adalah kerangka kerja danau data yang memungkinkan Anda menyisipkan, memperbarui, dan menghapus data. Biasanya digunakan untuk membangun danau data berbiaya rendah berbasis Object Storage Service (OSS). Apache Hudi mendukung berbagai versi protokol manajemen file serta menyediakan kemampuan seperti penulisan data tambahan secara real-time, atomicitas transaksi, konsistensi, isolasi, daya tahan (ACID), penggabungan otomatis, dan optimalisasi file kecil. Selain itu, Apache Hudi mendukung verifikasi metadata, evolusi skema, format analisis kolom tinggi efisiensi, optimalisasi indeks, serta penyimpanan tabel partisi super besar.

Tim AnalyticDB for MySQL membangun solusi danau data berbiaya rendah yang sepenuhnya kompatibel dengan ekosistem Hudi sumber terbuka berdasarkan Apache Hudi. Setelah membuat kluster AnalyticDB for MySQL, Anda dapat mengonfigurasi pengaturan sederhana untuk membangun danau data berbasis OSS dan Hudi. Sebagai contoh, Anda dapat menggunakan Layanan Pipa AnalyticDB (APS) untuk menyalurkan data log dari Kafka atau Log Service ke danau data hampir secara real-time, atau menggunakan mesin Spark Tanpa Server AnalyticDB for MySQL untuk menyalurkan data dari ApsaraDB RDS atau Parquet ke danau data dalam batch. Gambar berikut menunjukkan arsitektur solusi danau data yang disediakan oleh AnalyticDB for MySQL. Hudi storage

AnalyticDB for MySQL terintegrasi mendalam dengan Apache Hudi dan melakukan perbaikan signifikan pada kernel Hudi. Dibandingkan dengan solusi Hudi sumber terbuka, solusi danau data yang disediakan oleh AnalyticDB for MySQL memiliki keunggulan berikut:

Kemudahan Penggunaan
- Anda dapat dengan mudah menulis data ke Hudi setelah mengonfigurasi APS melalui GUI. AnalyticDB for MySQL menyediakan solusi ini langsung dari kotak dengan bekerja sama bersama Hudi untuk menghilangkan konfigurasi Spark yang kompleks.
Performa Penulisan Tinggi
- Solusi ini meningkatkan performa penulisan berbasis OSS secara signifikan. Di sebagian besar skenario logging, solusi ini memberikan performa tulis OSS lebih dari dua kali lipat dibandingkan dengan solusi Hudi sumber terbuka. Data panas didistribusikan secara merata untuk mengatasi skew data dan meningkatkan stabilitas penulisan secara signifikan.
Manajemen Siklus Hidup Berbasis Partisi
- Anda dapat mengelola siklus hidup data partisi berdasarkan beberapa dimensi seperti jumlah partisi, volume data, dan waktu kedaluwarsa. Beberapa kebijakan manajemen siklus hidup dapat dikonfigurasi secara bersamaan untuk mengurangi biaya penyimpanan lebih lanjut.
Dukungan Layanan Tabel
- Solusi ini mendukung layanan tabel asinkron yang sepenuhnya terisolasi dari tautan penulisan. Layanan tabel asinkron seperti pengelompokan dapat meningkatkan kinerja kueri hingga lebih dari 40% di sebagian besar skenario.
Sinkronisasi Metadata Otomatis
- AnalyticDB for MySQL menyediakan manajemen metadata terpusat. Setelah data ditulis ke Hudi, Anda dapat mengaksesnya menggunakan Spark Tanpa Server AnalyticDB for MySQL dan mesin XIHE tanpa perlu menyinkronkan metadata tabel secara manual. Satu salinan data yang telah diambil dapat diakses menggunakan beberapa mesin komputasi.