MaxCompute menyediakan solusi danau data terpadu yang menghilangkan hambatan antara data lake dan gudang data. Solusi ini menggabungkan fleksibilitas serta ekosistem kaya dari data lake dengan kemampuan penerapan berstandar perusahaan dari gudang data, sehingga memungkinkan Anda membangun platform manajemen data terintegrasi.
Applicability
Data Lakehouse Solution 1.0 hanya tersedia di wilayah berikut: Tiongkok (Hangzhou), Tiongkok (Shanghai), Tiongkok (Beijing), Tiongkok (Zhangjiakou), Tiongkok (Shenzhen), Tiongkok (Hong Kong), Singapura, dan Jerman (Frankfurt).
Implementation methods
Solusi danau data terpadu MaxCompute mengintegrasikan gudang data dan data lake. Metode implementasi berikut didukung:
Membangun danau data terpadu menggunakan MaxCompute, Data Lake Formation, dan Object Storage Service: Metadata (skema) data lake disimpan di Data Lake Formation (DLF). MaxCompute memanfaatkan kemampuan manajemen metadata DLF untuk meningkatkan pemrosesan data dalam format semi-terstruktur di Object Storage Service (OSS). Format yang didukung meliputi Delta Lake, Hudi, AVRO, CSV, JSON, PARQUET, dan ORC.
Membangun danau data terpadu menggunakan MaxCompute dan Hadoop: Metode ini mendukung penerapan di pusat data lokal, pada mesin virtual berbasis cloud, atau melalui Alibaba Cloud E-MapReduce. Setelah VPC untuk platform MaxCompute dan Hadoop terhubung, MaxCompute dapat langsung mengakses layanan metadata Hive. Metadata tersebut kemudian dipetakan ke proyek eksternal di MaxCompute.
References
Setelah proyek eksternal dibuat, akun yang membuat proyek tersebut memiliki kepemilikan atas tabel-tabel di dalamnya. Untuk memberikan izin kepada pengguna lain, lihat Pengguna dan izin untuk proyek eksternal.
Untuk informasi tentang cara mengelola proyek eksternal menggunakan SQL, lihat Mengelola proyek eksternal menggunakan SQL.
Spark on MaxCompute mendukung akses ke sumber data eksternal dalam danau data terpadu. Untuk mengubah lingkungan pekerjaan pemrosesan data dari Spark ke MaxCompute, lihat Akses sumber data eksternal dalam danau data terpadu dari Spark.
Untuk informasi tentang sistem file terdistribusi dan solusi penyimpanan data, lihat Memproses data tidak terstruktur menggunakan volume eksternal MaxCompute.