MaxCompute menyediakan solusi data lakehouse yang memungkinkan Anda membangun platform manajemen data dengan menggabungkan data lake dan data warehouse. Solusi ini mengintegrasikan fleksibilitas serta kompatibilitas ekosistem luas dari data lake dengan penyebaran kelas perusahaan dari data warehouse. Topik ini menjelaskan cara menggunakan MaxCompute dan platform data heterogen untuk membangun solusi data lakehouse. Solusi data lakehouse saat ini dalam pratinjau publik.
Membangun solusi data lakehouse
Anda dapat membangun solusi data lakehouse menggunakan MaxCompute dan data lake. MaxCompute berfungsi sebagai data warehouse dalam solusi ini. Berikut adalah metode yang dapat digunakan:
Bangun data lakehouse menggunakan MaxCompute, DLF, dan OSS: Dengan metode ini, semua skema data lake disimpan di Data Lake Formation (DLF). MaxCompute memanfaatkan kemampuan manajemen metadata DLF untuk memproses data semi-terstruktur di OSS secara efisien. Data semi-terstruktur OSS mencakup format Delta Lake, Apache Hudi, AVRO, CSV, JSON, Parquet, dan ORC.
Bangun data lakehouse menggunakan MaxCompute dan Hadoop: Anda dapat menggunakan kluster Hadoop yang diterapkan di pusat data, pada mesin virtual (VM) di cloud, atau di Alibaba Cloud E-MapReduce (EMR). Jika MaxCompute terhubung ke virtual private cloud (VPC) tempat kluster Hadoop diterapkan, MaxCompute dapat langsung mengakses metastore Hive dan memetakan metadata ke proyek eksternal MaxCompute.
Batasan
Solusi lakehouse didukung di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, dan Jerman (Frankfurt).
MaxCompute harus diterapkan di wilayah yang sama dengan DLF dan OSS.
Referensi
Setelah proyek eksternal dibuat, pemilik tabel di proyek eksternal dimiliki oleh akun yang digunakan untuk membuat proyek tersebut. Untuk informasi lebih lanjut tentang cara memberikan izin kepada pengguna lain untuk melakukan operasi pada tabel di proyek eksternal, lihat Berikan izin kepada pengguna lain pada proyek eksternal.
Saat membangun solusi data lakehouse, Anda dapat menggunakan Pernyataan SQL untuk mengelola proyek eksternal. Untuk informasi lebih lanjut, lihat Gunakan Pernyataan SQL untuk mengelola proyek eksternal.