全部产品
Search
文档中心

MaxCompute:Analitik data lake

更新时间:Jan 14, 2026

MaxCompute menyediakan solusi analitik data lake yang memungkinkan Anda membuat objek manajemen untuk mendefinisikan metadata dan metode akses data dari sumber data eksternal. Dengan mekanisme pemetaan skema eksternal, Anda dapat langsung mengakses seluruh tabel dalam database atau skema dari sumber data eksternal tersebut. Solusi ini menghilangkan hambatan antara data lake dan gudang data dengan menggabungkan fleksibilitas serta ekosistem multi-engine yang kaya dari data lake dengan kemampuan enterprise-grade gudang data, sehingga membantu Anda membangun platform manajemen data terintegrasi. Fitur ini saat ini berada dalam status pratinjau publik.

Gudang data dan data lake

Kategori

Kemampuan

Gudang data

Gudang data menekankan manajemen dan pembatasan pada data terstruktur dan semi-terstruktur. Gudang data mengandalkan manajemen yang kuat untuk mencapai kinerja komputasi yang lebih baik serta kemampuan manajemen yang lebih terstandarisasi.

Data lake

Data lake menekankan penyimpanan data terbuka dan format data umum. Data lake mendukung berbagai engine yang menghasilkan atau mengonsumsi data sesuai kebutuhan. Untuk memastikan fleksibilitas, data lake hanya menyediakan kemampuan manajemen yang lemah. Data lake kompatibel dengan data tidak terstruktur dan mendukung pendekatan schema-on-read, sehingga menawarkan cara yang lebih fleksibel dalam mengelola data.

Gudang data MaxCompute

MaxCompute adalah gudang data cloud-native berbasis arsitektur serverless. Anda dapat melakukan operasi berikut:

  • Memodelkan gudang data menggunakan MaxCompute.

  • Menggunakan alat ekstrak, transformasi, dan muat (ETL) untuk memuat dan menyimpan data ke dalam tabel yang telah dimodelkan dengan skema yang telah ditentukan.

  • Memproses data dalam jumlah besar di gudang data menggunakan mesin SQL standar dan menganalisis data tersebut menggunakan mesin OLAP Hologres.

Skenario penggunaan MaxCompute dengan data lake dan kueri terfederasi

Dalam skenario data lake, data berada di dalam lake dan dihasilkan atau dikonsumsi oleh berbagai engine. Mesin komputasi MaxCompute dapat bertindak sebagai salah satu engine tersebut untuk memproses dan menggunakan data. Dalam kasus ini, MaxCompute perlu membaca data yang dihasilkan oleh sumber hulu di dalam data lake, kompatibel dengan berbagai format data open source utama, melakukan perhitungan di dalam engine-nya, serta menghasilkan data untuk alur kerja hilir.

Sebagai gudang data yang aman, berkinerja tinggi, dan hemat biaya yang mengagregasi data bernilai tinggi, MaxCompute juga perlu mengambil metadata dan data dari data lake. Hal ini memungkinkan komputasi langsung pada data eksternal dan kueri terfederasi dengan data internal guna mengekstraksi nilai serta mengonsolidasikannya ke dalam gudang data.

Selain data lake, MaxCompute sebagai gudang data juga perlu mengambil data dari berbagai sumber data eksternal lainnya, seperti Hadoop dan Hologres, untuk melakukan kueri terfederasi dengan data internalnya. Dalam skenario kueri terfederasi, MaxCompute juga harus mendukung pembacaan metadata dan data dari sistem eksternal.

Analitik data lake MaxCompute

Analitik data lake MaxCompute dibangun di atas mesin komputasi MaxCompute. Fitur ini mendukung akses ke layanan metadata atau penyimpanan Alibaba Cloud melalui jaringan produk cloud yang saling terhubung, serta akses ke sumber data eksternal di dalam VPC melalui jalur sewa. Fitur ini memungkinkan Anda membuat objek manajemen yang mendefinisikan metadata dan metode akses data untuk sumber data eksternal. Skema eksternal dapat dipetakan ke database atau skema eksternal, sehingga memungkinkan akses langsung ke semua tabel dalam cakupan tersebut.

image

  • Konektivitas jaringan

    Untuk informasi selengkapnya tentang Networklink, lihat Network Connection Flow. MaxCompute dapat menggunakan koneksi jaringan untuk mengakses sumber data di dalam VPC, seperti kluster E-MapReduce (EMR) dan instans ApsaraDB RDS (segera tersedia). Data Lake Formation (DLF), Object Storage Service (OSS), dan Hologres berada dalam jaringan layanan cloud yang saling terhubung, sehingga MaxCompute dapat langsung mengakses data di layanan-layanan tersebut tanpa perlu mengonfigurasi Networklink.

  • Foreign Server

    Foreign Server berisi informasi untuk akses metadata dan data, termasuk kredensial autentikasi, informasi lokasi, serta detail protokol koneksi untuk sistem sumber data. Foreign Server merupakan objek manajemen tingkat penyewa yang didefinisikan oleh administrator penyewa.

    Ketika fitur kontrol akses resource penyewa tingkat proyek diaktifkan, administrator penyewa menyambungkan sumber data eksternal ke proyek yang akan menggunakannya. Administrator proyek kemudian menggunakan Policy untuk memberikan izin kepada pengguna dalam proyek tersebut agar dapat menggunakan sumber data eksternal.

  • External Schema

    External Schema adalah jenis skema khusus dalam proyek gudang data MaxCompute. Seperti yang ditunjukkan pada gambar, skema ini dapat dipetakan ke database atau skema sumber data, sehingga memungkinkan akses langsung ke tabel dan data di dalamnya. Tabel yang dipetakan ke database eksternal melalui External Schema disebut federated foreign tables.

    Federated foreign tables tidak menyimpan metadata di MaxCompute. Sebaliknya, MaxCompute mengambil metadata tersebut secara real time dari layanan meta global yang ditentukan dalam objek Foreign Server. Saat menjalankan kueri, Anda tidak perlu membuat tabel eksternal di gudang data menggunakan pernyataan DDL. Anda dapat langsung mereferensikan nama tabel asli dari sumber data menggunakan nama proyek dan nama External Schema sebagai namespace. Jika skema tabel atau data di sumber data berubah, perubahan tersebut langsung tercermin pada federated foreign table. Tingkat hierarki sumber data yang dipetakan oleh External Schema bergantung pada dua faktor: tingkat yang didefinisikan dalam Foreign Server dan hierarki tabel di sumber data. Tingkat yang didefinisikan dalam Foreign Server ditentukan oleh izin akses identitas autentikasi.

  • External Project

    Dalam Data Lakehouse Solution 1.0, External Project menggunakan model dua lapis. Seperti External Schema, External Project dipetakan ke database atau skema sumber data dan memerlukan proyek gudang data untuk membaca serta mengomputasi data eksternal. Namun, External Project merupakan objek tingkat tinggi. Pendekatan ini menghasilkan banyak External Project dan tidak kompatibel dengan model tiga lapis proyek gudang data. MaxCompute secara bertahap akan menghentikan penggunaan External Project dari Data Lakehouse Solution 1.0. Pengguna yang ada dapat bermigrasi ke External Schema.

    Dalam analitik data lake, Anda dapat menggunakan External Schema untuk memperoleh semua kemampuan External Project dari Data Lakehouse Solution 1.0. External Schema secara langsung dipetakan ke Catalog atau Database dari sumber data model tiga lapis, memberikan visibilitas langsung ke Database di bawah Catalog DLF atau Skema di bawah Database Hologres. Anda kemudian dapat mengakses tabel sumber data sebagai federated foreign tables.

Jenis sumber data

Hierarki Sumber Data Eksternal

Tingkat pemetaan External Schema

Tingkat pemetaan External Project Data Lakehouse 2.0

Tingkat pemetaan External Project Data Lakehouse Solution 1.0 (sedang dihentikan)

Metode autentikasi

DLF+OSS

Layanan DLF dan OSS tingkat wilayah

DLF Catalog.Database

Catalog DLF

DLF Catalog.Database

RAMRole

Hive+HDFS

Instans EMR

Database Hive

Tidak didukung

Database Hive

Tanpa autentikasi

Hologres

Database instans Hologres

Skema

Database

Tidak didukung

RAMRole

Catatan

Berbagai sumber data mendukung tipe autentikasi yang berbeda. MaxCompute akan mendukung lebih banyak metode autentikasi di rilis mendatang, seperti menggunakan identitas pengguna saat ini untuk mengakses Hologres atau menggunakan Otentikasi Kerberos untuk mengakses Hive.