Membangun solusi data lakehouse - Lakehouse-MaxCompute

MaxCompute menyediakan solusi danau data terpadu yang memungkinkan Anda membangun platform manajemen data dengan menggabungkan fleksibilitas data lake dan kemampuan gudang data kelas enterprise. Solusi ini memungkinkan Anda menjalankan analitik SQL pada data berformat terbuka yang disimpan di Object Storage Service (OSS) atau kluster Hadoop.

Solusi danau data terpadu ini sedang dalam masa pratinjau publik.

Kemampuan

Solusi danau data terpadu MaxCompute memungkinkan Anda:

Query data where it lives — jalankan SQL langsung pada data di OSS tanpa memindahkannya ke MaxCompute
Use open formats — proses file Delta Lake, Apache Hudi, AVRO, CSV, JSON, Parquet, dan ORC secara native
Unify metadata management — petakan skema data lake eksternal ke proyek eksternal MaxCompute untuk tata kelola yang konsisten
Leverage existing infrastructure — hubungkan ke kluster Hadoop di pusat data, mesin virtual (VM) cloud, atau E-MapReduce (EMR) tanpa melakukan migrasi data

Metode pembangunan

MaxCompute berperan sebagai gudang data dalam solusi danau data terpadu. Pilih metode pembangunan berdasarkan lokasi penyimpanan data dan metadata Anda.

Bangun danau data terpadu dengan MaxCompute, DLF, dan OSS

When to use: Data Anda berada di OSS dan Anda menginginkan lapisan metadata cloud-native yang sepenuhnya dikelola.

Semua skema data lake disimpan di Data Lake Formation (DLF). MaxCompute menggunakan kemampuan manajemen metadata DLF untuk menjalankan kueri langsung pada data semi-terstruktur di OSS — mendukung format Delta Lake, Apache Hudi, AVRO, CSV, JSON, Parquet, dan ORC.

Untuk instruksi penyiapan, lihat Bangun danau data terpadu dengan menggunakan MaxCompute, DLF, dan OSS.

Bangun danau data terpadu dengan MaxCompute dan Hadoop

When to use: Anda memiliki kluster Hadoop yang sudah ada — di lingkungan on-premises, di VM cloud, atau di Alibaba Cloud E-MapReduce (EMR) — dan ingin menjalankan kueri terhadap datanya dari MaxCompute tanpa migrasi.

Hubungkan MaxCompute ke virtual private cloud (VPC) tempat kluster Hadoop berjalan. MaxCompute kemudian mengakses Hive metastore secara langsung dan memetakan metadata tersebut ke proyek eksternal MaxCompute.

Untuk instruksi penyiapan, lihat Bangun danau data terpadu dengan menggunakan MaxCompute dan Hadoop.

Batasan

Supported regions: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, dan Jerman (Frankfurt).
Co-location requirement: MaxCompute harus diterapkan di wilayah yang sama dengan DLF dan OSS.

Langkah selanjutnya

Grant other users the permissions on an external project — pemilik proyek eksternal adalah akun yang digunakan untuk membuatnya; berikan akses kepada pengguna tambahan secara terpisah.
Use SQL statements to manage an external project — kelola proyek eksternal dengan pernyataan SQL setelah penyiapan selesai.