All Products
Search
Document Center

MaxCompute:Analitik Data Lake (Data Lakehouse)

Last Updated:May 14, 2026
MaxCompute menyediakan berbagai solusi analitik data lake yang menjembatani kesenjangan antara data lake dan data warehouse dengan menggabungkan fleksibilitas serta ekosistem multi-engine yang kaya dari data lake dengan kemampuan enterprise-grade dari data warehouse, sehingga membantu Anda membangun platform manajemen data terpadu.

Analitik data lake dan arsitektur terbuka lakehouse

  • Data warehouse menekankan manajemen dan tata kelola data terstruktur serta semi-terstruktur. Kemampuan manajemen yang kuat memungkinkan performa komputasi yang lebih baik dan tata kelola data yang lebih terstandarisasi.

  • Data lake menekankan keterbukaan penyimpanan dan universalitas format. Data lake mendukung berbagai engine yang dapat menghasilkan atau mengonsumsi data sesuai kebutuhan, hanya menerapkan manajemen ringan untuk menjaga fleksibilitas, mampu menampung data tidak terstruktur, serta mendukung pendekatan schema-on-read—pendekatan manajemen data yang lebih fleksibel.

Oleh karena itu, MaxCompute memperkenalkan solusi data lakehouse yang menggabungkan keunggulan data warehouse dan data lake.

Analitik data lake

MaxCompute mendukung koneksi ke data lake untuk analitik data lake, menyediakan kemampuan berikut:

  • Berfungsi sebagai mesin komputasi batch berkinerja tinggi dan hemat biaya yang memproses data secara kolaboratif dengan engine lain di data lake;

  • Memperluas kemampuan manajemen data warehouse ke data lake, sehingga lebih aman dan terkendali;

  • Mengonsolidasikan data bernilai tinggi ke dalam data warehouse;

  • Menjalankan komputasi federated antara data warehouse dan berbagai sumber data eksternal, termasuk data lake dan database.

Arsitektur terbuka lakehouse

MaxCompute dibangun di atas arsitektur pemisahan penyimpanan dan komputasi big data. Penyimpanan terbuka, metadata terbuka, serta arsitektur multi-engine-nya membentuk arsitektur lakehouse terbuka yang menyediakan kemampuan berikut:

  • Penemuan dan manajemen metadata di data lake;

  • Tampilan metadata terpadu yang mengekspos metadata data warehouse dan metadata tabel lake yang dikelola MaxCompute kepada konsumen eksternal;

  • Penyimpanan MaxCompute terbuka yang mendukung engine MaxCompute maupun engine pihak ketiga dalam mengonsumsi data MaxCompute;

  • Layanan manajemen metadata dan layanan data yang mengatur operasi baca/tulis multi-engine pada data dalam arsitektur lakehouse MaxCompute. Sebagai contoh, layanan ini mengontrol izin bagi identitas pengguna berbeda yang mengoperasikan data lake yang sama melalui berbagai engine, mengoordinasikan tugas penulisan, memastikan pembaruan metadata dari engine mana pun segera terlihat oleh engine lain, menerapkan aturan yang ditentukan platform pada pembacaan data (seperti penyamaran data), serta mendukung maintenance dan optimasi otomatis data terbuka (seperti auto-compaction) agar engine dapat menggunakan data lake secara lebih efisien.

Untuk informasi selengkapnya, lihat Arsitektur lakehouse terbuka.

Fitur analitik data lake MaxCompute

Kemampuan analitik data lake dan komputasi federated MaxCompute diatur berdasarkan tingkat manajemen terhadap data eksternal, dari yang paling lemah hingga paling kuat: Schemaless Query, tabel eksternal, dan tabel lake terkelola. Karena layanan manajemen metadata di data lake tidak hanya tersedia di MaxCompute tetapi juga di layanan seperti DLF dan spesifikasi katalog filesystem, MaxCompute juga menyediakan solusi External Schema dan External Project yang memetakan sumber metadata eksternal untuk analisis dan pemrosesan data.

Schemaless Query

Fitur: Schemaless query memungkinkan engine SQL MaxCompute mengakses langsung data di direktori OSS—seperti file Parquet, CSV, dan JSON—tanpa perlu mendefinisikan skema atau informasi partisi terlebih dahulu. Sebagai gantinya, engine tersebut mengurai data sampel untuk secara otomatis memperoleh metadata (seperti skema yang tertanam dalam file Parquet, header CSV, atau struktur JSON self-describing). Hasil kueri dapat diekspor ke OSS, ditulis ke tabel internal, atau digunakan sebagai subkueri dalam operasi SQL, sehingga memudahkan akses ke data lake.

Tabel eksternal

Ikhtisar tabel eksternal menggunakan pernyataan DDL untuk mendefinisikan nama tabel, skema, properti tabel, izin, lokasi, dan protokol yang diperlukan untuk mengakses data di luar MaxCompute. Informasi ini disimpan dalam metadata MaxCompute. Berdasarkan metadata tersebut, engine SQL terhubung ke sumber data eksternal menggunakan metode yang sesuai untuk setiap format tabel eksternal, sehingga memungkinkan pengambilan dan pembaruan metadata serta pembacaan, komputasi, dan penulisan data.

Tabel lake

Untuk lebih memastikan bahwa data di data lake memenuhi persyaratan manajemen, MaxCompute menyediakan tabel lake dalam kerangka kerja manajemennya. Tabel lake dibangun di atas layanan penyimpanan terbuka OSS, format lake terbuka Iceberg, layanan metadata terbuka MaxCompute, Storage API untuk pembacaan dan penulisan data, serta konektor engine open-source.

  • Skema dan informasi partisi tabel lake disediakan oleh Iceberg, memungkinkan evolusi skema yang lebih fleksibel;

  • Metadata tabel lake disimpan dalam layanan metadata MaxCompute. Engine MaxCompute dan engine pihak ketiga dapat mengikuti aturan terpadu yang ditetapkan oleh layanan metadata saat membaca data, dan pembaruan metadata dari operasi penulisan segera terlihat oleh engine lain yang menggunakan layanan metadata tersebut;

  • Manajemen tabel lake juga mencakup manajemen izin terpadu dan maintenance file tingkat dasar. Untuk pengguna yang membutuhkan keterbukaan native, tabel lake MaxCompute juga akan menyediakan layanan metadata native Iceberg REST Catalog dan akses read-only ke file snapshot Iceberg yang disimpan langsung di OSS.

Untuk informasi selengkapnya, lihat Tabel Iceberg yang dikelola MaxCompute (beta). Fitur ini dirilis untuk pratinjau berbasis undangan di wilayah Shanghai dan Jerman pada 7 Mei 2026 (UTC+8).

External Schema dan External Project

Perbedaan utama antara External Schema dan External Project dibandingkan tabel eksternal adalah metadata data eksternal tidak disimpan atau dipelihara di dalam MaxCompute. Sebaliknya, metadata tersebut diambil secara real-time dari sumber data eksternal. Pengguna harus terlebih dahulu membuat objek manajemen yang mendefinisikan cara MaxCompute mengakses layanan metadata, layanan data, atau instansiasi database dari sumber data eksternal. MaxCompute kemudian mengambil metadata eksternal secara real-time melalui objek manajemen ini dan menggunakan mekanisme pemetaan External Schema atau External Project untuk langsung mengakses semua tabel dalam cakupan Catalog, Database, atau Schema sumber data eksternal.

Fitur dan konsep utama

  • Konektivitas jaringan

    Untuk informasi selengkapnya, lihat Proses koneksi jaringan. MaxCompute dapat mengakses sumber data di VPC melalui koneksi jaringan, seperti instans EMR dan instans RDS (segera hadir). DLF (Data Lake Formation), OSS (Object Storage Service), dan Hologres berada dalam jaringan saling terhubung Alibaba Cloud, sehingga MaxCompute dapat mengaksesnya secara langsung tanpa perlu mengonfigurasi objek Networklink.

    Konektivitas jaringan mendukung tabel eksternal, External Schema, dan External Project yang perlu mengakses sumber data di VPC.

  • Foreign Server

    Foreign Server berisi metadata dan informasi akses data, termasuk kredensial autentikasi, informasi lokasi, dan detail protokol koneksi untuk sistem sumber data. MaxCompute terhubung ke dan menggunakan metadata serta data sumber data melalui Foreign Server. Foreign Server merupakan objek manajemen tingkat penyewa yang didefinisikan oleh administrator penyewa.

    Foreign Server mendukung External Schema dan External Project. Di masa depan, Foreign Server secara bertahap akan beralih ke objek Connection, berubah dari objek tingkat penyewa menjadi objek tingkat data yang mendukung tabel lake dan External Schema. External Project yang sebelumnya bergantung pada Foreign Server akan menyimpan informasi Foreign Server secara langsung pada External Project tersebut dan tidak lagi bergantung pada objek Connection baru. Transisi ini transparan bagi pengguna.

  • External Schema

    External Schema adalah jenis khusus schema dalam proyek data warehouse MaxCompute. Seperti yang ditunjukkan pada gambar di atas, External Schema dapat dipetakan ke level Database (dalam skenario DLF_legacy atau Hive) atau level Schema (dalam skenario Hologres) dari sumber data, sehingga memberikan akses langsung ke tabel dan data dalam cakupan Database atau Schema yang dipetakan tersebut. Tabel yang tidak dibuat dalam metadata MaxCompute tetapi dipetakan ke tabel sumber melalui External Schema disebut federated foreign tables (Mounted Tables).

    Federated foreign tables tidak menyimpan metadata di MaxCompute. Sebaliknya, MaxCompute mengambil metadata secara real-time melalui layanan metadata yang didefinisikan dalam Foreign Server. Pengguna dapat melakukan kueri data tanpa membuat tabel eksternal melalui pernyataan DDL—cukup menggunakan nama proyek dan nama External Schema sebagai namespace untuk mereferensikan nama tabel sumber. Ketika struktur atau data tabel sumber berubah, federated foreign table segera mencerminkan kondisi terbaru. Hierarki sumber data yang dipetakan oleh External Schema ditentukan oleh hierarki sistem antara level yang didefinisikan oleh Foreign Server dan level tabel dalam sumber data. Level Foreign Server ditentukan oleh hierarki sumber data yang dapat diakses oleh identitas yang telah diautentikasi.

  • External Project

    Dalam solusi Data Lakehouse 1.0, External Project menggunakan model dua lapis yang dipetakan ke Database sumber data (dalam skenario DLF_legacy atau Hive) atau Schema (dalam skenario Hologres), dan memerlukan proyek data warehouse sebagai lingkungan eksekusi tugas untuk membaca dan mengomputasi data eksternal. Namun, pemetaan Database atau Schema di level proyek menyebabkan jumlah External Project yang berlebihan. Karena MaxCompute merekomendasikan pembuatan proyek dengan model tiga lapis yang sesuai dengan hierarki Catalog tiga lapis dari sumber data eksternal, External Project dua lapis dari Data Lakehouse 1.0 sulit digunakan bersama proyek data warehouse tiga lapis yang baru. Oleh karena itu, MaxCompute secara bertahap menghentikan External Project Data Lakehouse 1.0, dan pengguna yang ada dapat memigrasikannya ke External Schema. Untuk detail migrasi, lihat: Migrasi external projects ke external schemas.

    Dalam analitik data lake, External Project baru secara langsung dipetakan ke Catalog sumber data tiga lapis (dalam skenario DLF) atau Database (dalam skenario Hologres), dan langsung mengekspos Database di bawah Catalog DLF atau Schema di bawah Database Hologres. Lapisan ini juga dipetakan, bukan dibuat di MaxCompute, dan disebut Mounted Schema. Tabel dalam Mounted Schema diakses sebagai federated foreign tables.

Jenis sumber data

Hierarki Foreign Server

Pemetaan External Schema

Pemetaan External Project

Pemetaan External Project Data Lakehouse 1.0 lama

Metode autentikasi

DLF_legacy+OSS

Layanan DLF dan OSS tingkat Wilayah

DLF Catalog.Database

Tidak didukung

DLF Catalog.Database

RAMRole

Hive+HDFS

Instans E-MapReduce

Database Hive

Tidak didukung

Database Hive

Tanpa autentikasi

Hologres

Database dari instans Hologres

Schema

Tidak didukung

RAMRole

Hologres

Database dari instans Hologres

Tidak didukung

Database

Tidak didukung

Otentikasi identitas SLR dan pengguna saat ini

DLF

Layanan DLF tingkat Wilayah

Tidak didukung

Catalog DLF

Tidak didukung

Otentikasi identitas SLR dan pengguna saat ini

Filesystem Catalog

Direktori tingkat Catalog Paimon di OSS

Tidak didukung

Catalog yang diurai dari direktori tingkat Catalog Paimon

Tidak didukung

RAMRole

Catatan

Sumber data yang berbeda mendukung berbagai metode autentikasi. MaxCompute secara bertahap akan menyediakan metode autentikasi tambahan dalam rilis mendatang, seperti autentikasi identitas pengguna saat ini untuk akses Hologres dan otentikasi Kerberos untuk akses Hive.