Akselerasi danau data - Hologres

Solusi danau data real-time memungkinkan Anda menggunakan tabel eksternal untuk mempercepat pembacaan dan penulisan data di Object Storage Service (OSS), meningkatkan efisiensi kueri, serta menyederhanakan pemrosesan data.

Informasi latar belakang

Seiring dengan evolusi penyimpanan cloud, terutama penyimpanan objek, solusi danau data berkembang menuju teknologi cloud-native. OSS digunakan sebagai penyimpanan terpadu untuk danau data cloud dalam arsitektur lakehouse Alibaba Cloud, menyediakan solusi yang aman, hemat biaya, sangat andal, dan dapat diskalakan.

Solusi danau data real-time menandai kemajuan signifikan dalam pengembangan danau data. Solusi ini berfokus pada performa real-time dan streaming data dalam arsitektur lakehouse. Hologres mendukung penulisan, pembaruan, dan analisis data real-time. Dengan memanfaatkan kemampuan mesin yang kuat, Hologres terintegrasi dengan Data Lake Formation (DLF), Hive Metastore Service (HMS), OSS, serta berbagai kemampuan ekosistem lainnya untuk menyediakan solusi danau data real-time yang komprehensif. Solusi ini mempercepat pembacaan dan penulisan berbagai jenis data di OSS melalui penggunaan tabel eksternal tanpa memerlukan migrasi data. Tabel eksternal digunakan untuk memetakan bidang, bukan untuk menyimpan data, sehingga mengurangi biaya pengembangan dan operasional, memecah silo data, serta mendukung pencapaian wawasan bisnis.

Tabel berikut menjelaskan layanan Alibaba Cloud yang terlibat dalam solusi danau data real-time.

Layanan	Deskripsi	Referensi
DLF	Alibaba Cloud DLF adalah layanan yang dikelola sepenuhnya yang membantu Anda membangun danau data dan lakehouse di cloud. DLF menyediakan manajemen metadata terpusat, manajemen izin dan keamanan terpusat, serta kemampuan pengambilan dan eksplorasi data yang nyaman untuk danau data di cloud.	Apa itu Data Lake Formation?
HMS	HMS adalah komponen inti dari Apache Hive dan berfungsi sebagai repositori metadata untuk mengelola informasi metadata tabel Hive dan Spark. Informasi metadata termasuk lokasi penyimpanan data tabel dan skema tabel seperti nama tabel, nama kolom, tipe data, dan informasi partisi. HMS digunakan untuk menyediakan layanan metadata dan mendukung kueri data Hive dan Spark.	Hive Metastore Server
OSS	DLF menggunakan OSS sebagai penyimpanan terpadu untuk danau data cloud. OSS adalah layanan yang aman, hemat biaya, dan sangat andal yang dapat menyimpan sejumlah besar data dan semua jenis file. OSS dapat memberikan 99,9999999999% daya tahan data dan telah menjadi standar de facto untuk penyimpanan danau data.	Apa itu OSS?
OSS	OSS-HDFS (JindoFS) adalah layanan penyimpanan danau data cloud-native. OSS-HDFS terintegrasi dengan mesin komputasi dalam ekosistem Hadoop dan memberikan performa lebih baik dalam ETL offline data besar berbasis Hive dan Spark dibandingkan OSS asli. OSS-HDFS sepenuhnya kompatibel dengan API Hadoop Distributed File System (HDFS) dan mendukung Antarmuka Sistem Operasi Portabel (POSIX). Anda dapat menggunakan OSS-HDFS untuk mengelola data dalam skenario komputasi berbasis danau data di bidang data besar dan AI.	Apa itu OSS-HDFS?

Arsitektur

Gambar berikut mengilustrasikan arsitektur danau data yang direkomendasikan untuk Hologres. Arsitektur ini mencakup seluruh siklus hidup data, mulai dari pengumpulan, penyimpanan, manajemen, hingga aplikasi. Hologres memanfaatkan kemampuan mesin yang kuat serta kebijakan penskalaan otomatis yang fleksibel untuk menyediakan solusi end-to-end yang mengintegrasikan danau data dan gudang data.

Manajemen metadata terpadu

Mendukung layanan metadata DLF dan HMS.
Mendukung pemetaan satu klik ke katalog eksternal dengan menggunakan database eksternal.
Mendukung penemuan otomatis serta pembaruan perubahan metadata di danau data.
Mendukung pembuatan database dan tabel menggunakan pernyataan DDL di danau data. Paimon didukung.

Sumber daya komputasi dan pola terpadu

Gunakan fitur Dynamic Table untuk menerapkan pelapisan dan pemrosesan data lakehouse.
Mendukung analisis OLAP berperforma tinggi serta penulisan balik data di danau data.
Gunakan instance gudang virtual untuk memastikan elastisitas sumber daya dan isolasi.
Mendukung tugas serverless yang menjamin biaya kepemilikan nol serta mendukung metode penagihan bayar sesuai penggunaan.
Mendukung integrasi tanpa hambatan dengan alat BI utama.

Dukungan untuk format lakehouse terbuka

Mendukung akselerasi kueri data dalam format tabel Paimon, Iceberg, Hudi, Delta, ORC, dan Parquet.
Mendukung penulisan balik data dalam format Paimon, Iceberg, ORC, dan Parquet.

Catatan penggunaan

Tabel berikut menjelaskan metode yang disediakan oleh Hologres untuk memetakan sumber data eksternal.

Metode pemetaan	Sintaks	Deskripsi	Sumber data yang didukung	Persyaratan versi	Skenario
CREATE EXTERNAL DATABASE	CREATE EXTERNAL DATABASE CREATE EXTERNAL SCHEMA CREATE EXTERNAL TABLE	Pernyataan ini digunakan untuk membuat database eksternal pada instance Hologres. Anda dapat menggunakan database eksternal untuk memuat metadata sumber data eksternal ke Hologres. Hal ini memungkinkan Anda mengelola data internal dan eksternal di Hologres dan memfasilitasi manajemen metadata terpusat menggunakan arsitektur lakehouse terintegrasi.	DLF 1.0 DLF 2.0 MaxCompute	V3.0	Metode ini berlaku jika Anda ingin memetakan database katalog dalam sumber data eksternal dan semua tabel dalam database ke Hologres.
FOREIGN TABLE	IMPORT FOREIGN SCHEMA	Pernyataan ini digunakan untuk membuat beberapa tabel asing dalam skema di Hologres sekaligus untuk secara otomatis memetakan tabel tertentu dalam sumber data eksternal.	DLF 1.0 DLF 2.0 HMS MaxCompute Hologres	V0.8	Metode ini berlaku jika Anda ingin memetakan semua tabel dalam database atau skema sumber data eksternal ke skema di Hologres.
FOREIGN TABLE	CREATE FOREIGN TABLE	Pernyataan ini digunakan untuk secara manual membuat tabel asing di Hologres untuk memetakan tabel atau bidang tertentu dalam tabel sumber data eksternal.	DLF 1.0 DLF 2.0 HMS MaxCompute Hologres	V0.8	Metode ini berlaku jika Anda ingin memetakan tabel tertentu atau bidang tertentu dalam tabel ke Hologres.

Format tabel dan format file

Format tabel

Format tabel	Versi yang didukung	Metode kompresi yang didukung
Hudi	Pembacaan data didukung di Hologres V1.3 dan versi lebih baru	UNCOMPRESSED GZIP SNAPPY BROTLI LZ4 ZSTD LZ4_RAW None ZLIB
Delta Lake	Pembacaan data didukung di Hologres V1.3 dan versi lebih baru	UNCOMPRESSED GZIP SNAPPY BROTLI LZ4 ZSTD LZ4_RAW
Apache Paimon	Pembacaan data didukung di Hologres V2.1 dan versi lebih baru Pembacaan data dari tabel danau dan penulisan data ke tabel append-only Apache Paimon berdasarkan DLF 2.0 didukung di Hologres V3.0 dan versi lebih baru	PARQUET UNCOMPRESSED SNAPPY GZIP LZO BROTLI LZ4 ZSTD ORC NONE ZLIB SNAPPY LZO LZ4
Iceberg	Pembacaan data dari tabel Iceberg V1 dan V2 berdasarkan DLF 1.0 dan HMS didukung di Hologres V3.0	PARQUET UNCOMPRESSED SNAPPY GZIP LZO BROTLI LZ4 ZSTD ORC NONE ZLIB SNAPPY LZO LZ4

Format file

Format file	Versi yang didukung	Metode kompresi yang didukung
CSV	Pembacaan dan penulisan data didukung di Hologres V1.3 dan versi lebih baru	COMPRESSION_CODEC BZip2Codec DefaultCodec GzipCodec SnappyCodec
Parquet	Pembacaan dan penulisan data didukung di Hologres V1.3 dan versi lebih baru	UNCOMPRESSED GZIP SNAPPY BROTLI LZ4 ZSTD LZ4_RAW
ORC	Pembacaan dan penulisan data didukung di Hologres V1.3 dan versi lebih baru	None ZLIB SNAPPY
SequenceFile	Pembacaan dan penulisan data didukung di Hologres V1.3 dan versi lebih baru	COMPRESSION_CODEC BZip2Codec DefaultCodec GzipCodec SnappyCodec COMPRESSION_TYPE NONE RECORD BLOCK

Pemetaan tipe data

Untuk informasi lebih lanjut tentang pemetaan tipe data antara DLF dan Hologres, lihat Tipe Data.

Ikhtisar fitur

Di Hologres V1.1 dan versi lebih baru, Anda dapat membaca data dalam format ORC, Parquet, CSV, dan SequenceFile dari OSS. Di Hologres V1.3 dan versi lebih baru, Anda dapat menulis data dalam format ORC, Parquet, CSV, atau SequenceFile ke OSS, serta membaca data dari tabel Apache Hudi atau tabel Delta Lake di OSS.
Catatan
Anda dapat melihat versi instance Hologres Anda di halaman detail instance di konsol Hologres. Jika versi instance Hologres Anda lebih awal dari V1.1, tingkatkan instance Hologres Anda secara manual di konsol Hologres atau bergabunglah dengan grup DingTalk Hologres untuk mengajukan permohonan peningkatan instance. Untuk informasi lebih lanjut tentang cara menaikkan versi instance Hologres secara manual, lihat Peningkatan Instance. Untuk informasi lebih lanjut tentang cara bergabung dengan grup DingTalk Hologres, lihat Dapatkan Dukungan Online untuk Hologres.
Di Hologres V1.3.25 dan versi lebih baru, Anda dapat menggunakan fitur multi-katalog DLF untuk mengisolasi metadata di lingkungan pengujian, lingkungan pengembangan, dan instance lintas departemen. Hal ini membantu memastikan keamanan bisnis Anda. Untuk informasi lebih lanjut tentang fitur multi-katalog, lihat Katalog.
Di Hologres V1.3.26 dan versi lebih baru, Anda dapat membaca data dari dan menulis data ke OSS-HDFS. Kemampuan layanan dan batas-batas akselerasi danau data semakin diperluas. Hologres terintegrasi dengan mesin komputasi dalam ekosistem Hadoop, mempercepat pembacaan dan penulisan data yang disimpan di OSS-HDFS, serta meningkatkan efisiensi analisis data real-time dalam ekosistem Hadoop. Solusi ini memenuhi persyaratan kueri federasi danau data dan analisis data real-time di bidang seperti data besar dan AI.
Di Hologres V2.1.0 dan versi lebih baru, Anda dapat membaca data dari tabel asing Apache Paimon. Apache Paimon adalah platform penyimpanan danau seragam yang memungkinkan Anda memproses data dalam mode streaming dan batch. Apache Paimon mendukung penulisan data dengan throughput tinggi dan kueri data dengan latensi rendah untuk memungkinkan data mengalir di danau data secara real-time. Pengguna dapat mengintegrasikan pemrosesan data real-time dan offline di danau data menggunakan Apache Paimon. Untuk informasi lebih lanjut, lihat Apache Paimon.
Di Hologres V2.2 dan versi lebih baru, arsitektur tabel asing baru digunakan. Dalam arsitektur ini, Hologres Query Engine (HQE) memungkinkan Anda membaca data langsung dari file dalam format ORC dan Parquet, serta menggunakan percepatan berbasis cache berdasarkan SSD lokal. Performa ditingkatkan lebih dari lima kali lipat. Anda dapat menggunakan HMS untuk mengakses data di OSS dan OSS-HDFS. Untuk informasi lebih lanjut, lihat Gunakan HMS untuk Mengakses Data di Danau Data OSS (beta).
Catatan
Jika versi instance Hologres Anda adalah V2.1 atau lebih awal, hubungi dukungan teknis Hologres untuk meningkatkan instance Anda.
Di Hologres V3.0 dan versi lebih baru, fitur-fitur berikut ditambahkan:
- Fitur database eksternal ditambahkan untuk mendukung pemetaan metadata tingkat katalog untuk sumber data seperti DLF dan MaxCompute. Fitur ini meningkatkan kemampuan manajemen metadata dan data danau data. Untuk informasi lebih lanjut, lihat CREATE EXTERNAL DATABASE.
- Kemampuan skema eksternal dan tabel eksternal didukung. Anda dapat membuat database dan tabel dalam katalog DLF tertentu untuk memfasilitasi penulisan balik setelah agregasi. Untuk informasi lebih lanjut, lihat CREATE EXTERNAL SCHEMA dan CREATE EXTERNAL TABLE.
- Penulisan data berperforma tinggi ke tabel append-only Apache Paimon didukung untuk memfasilitasi penerusan data di danau data dan gudang data.
- Vektor penghapusan Paimon dapat dioptimalkan untuk meningkatkan performa kueri ketika sejumlah besar data dihapus tetapi pemadatan tidak dilakukan pada kesempatan pertama.
- Pembaca Delta Lake direkonstruksi untuk secara signifikan meningkatkan performa pembacaan.
- Data dapat dibaca dari danau data berbasis Iceberg, memperluas ekosistem danau data.
- Kueri data dalam kluster EMR dipercepat setelah Hologres terhubung ke HMS untuk pemetaan metadata. Untuk informasi lebih lanjut, lihat Gunakan HMS untuk Mengakses Data di Danau Data OSS (beta).
- Kemampuan keamanan ditingkatkan. Secara default, peran terkait layanan digunakan untuk mengakses DLF 2.0. Anda juga dapat menggunakan Peran RAM untuk mengakses DLF 2.0.