全部产品
Search
文档中心

MaxCompute:Gudang Data Hampir Real-Time

更新时间:Jun 19, 2025

Topik ini menjelaskan titik-titik masalah bisnis yang dapat diselesaikan oleh solusi gudang data hampir real-time serta fitur arsitektur utamanya.

Informasi latar belakang

Perusahaan bergantung pada platform data besar untuk memperoleh wawasan dengan cepat dari volume data yang besar demi pengambilan keputusan yang tepat waktu dan efektif. Persyaratan terkait kesegaran data dan pemrosesan real-time juga semakin meningkat. Platform data besar umumnya menggunakan kombinasi mesin offline, real-time, dan aliran untuk memenuhi kebutuhan pengguna akan kinerja real-time dan efisiensi biaya. Namun, banyak skenario bisnis tidak memerlukan pembaruan tingkat baris atau visibilitas data dalam hitungan detik setelah pembaruan. Sebagai gantinya, mereka memerlukan pemrosesan data hampir real-time pada tingkat menit atau jam yang digabungkan dengan pemrosesan batch data besar. MaxCompute telah meningkatkan arsitekturnya berdasarkan mesin pemrosesan batch offline asli dan meluncurkan solusi gudang data hampir real-time.

Solusi ini mengimplementasikan penyimpanan dan manajemen terpadu untuk data inkremental dan penuh berdasarkan tabel Delta. Ini juga menyediakan kemampuan komputasi inkremental yang kaya serta peningkatan fitur MaxCompute Query Accelerator 2.0 (MaxQA, sebelumnya MCQA2.0) untuk mendukung respons query dalam hitungan detik.

Analisis situasi saat ini

  • Skema Bisnis Pemrosesan Data Tipikal:

    • Untuk skenario pemrosesan batch data penuh berskala besar dengan persyaratan ketepatan waktu rendah, MaxCompute saja dapat memenuhi kebutuhan bisnis dengan baik.

    • Untuk pemrosesan data real-time dalam hitungan detik atau pemrosesan aliran dengan persyaratan ketepatan waktu tinggi, sistem real-time atau sistem aliran diperlukan untuk memenuhi kebutuhan tersebut.

  • Skema Bisnis Komprehensif: Untuk skenario pemrosesan data hampir real-time dengan persyaratan ketepatan waktu tingkat menit atau jam serta skenario pemrosesan batch data besar, baik menggunakan satu mesin maupun beberapa mesin untuk federated query akan memiliki beberapa masalah.

Gambar berikut menunjukkan arsitekturnya.

image.png

  • Jika hanya pipeline pemrosesan batch MaxCompute yang digunakan, beberapa skenario memerlukan penggabungan dan penyimpanan berkelanjutan data inkremental tingkat menit dan data penuh, yang menghasilkan biaya komputasi dan penyimpanan yang berlebihan. Beberapa skenario lain memerlukan konversi berbagai pipeline kompleks dan logika pemrosesan menjadi pemrosesan batch T+1, yang sangat meningkatkan kompleksitas pipeline dan menghasilkan ketepatan waktu yang buruk.

  • Jika hanya sistem real-time yang digunakan, biaya konsumsi sumber daya relatif tinggi, efisiensi biaya rendah, dan stabilitas untuk pemrosesan batch data besar tidak cukup. Oleh karena itu, arsitektur Lambda adalah solusi tipikal. Dalam arsitektur ini, pipeline MaxCompute digunakan untuk pemrosesan batch penuh, dan pipeline sistem real-time digunakan untuk pemrosesan inkremental dengan persyaratan ketepatan waktu lebih tinggi. Namun, arsitektur ini juga memiliki beberapa cacat bawaan, seperti masalah ketidaksesuaian data yang disebabkan oleh beberapa mesin pemrosesan dan penyimpanan, biaya tambahan yang diperkenalkan oleh penyimpanan dan komputasi berlebihan dari beberapa salinan data, arsitektur yang kompleks, dan siklus pengembangan yang panjang.

Sebagai tanggapan terhadap masalah-masalah ini, ekosistem open source data besar telah meluncurkan berbagai solusi dalam beberapa tahun terakhir. Spark, Flink, dan Presto adalah mesin pemrosesan data open source yang paling banyak diadopsi. Mesin-mesin ini terintegrasi secara mendalam dengan format danau data open source Hudi, Delta Lake, dan Iceberg untuk mengimplementasikan solusi komprehensif dengan mesin komputasi terpadu dan penyimpanan data terpadu. Solusi ini mengatasi berbagai masalah yang dibawa oleh arsitektur Lambda tradisional.

MaxCompute telah mengembangkan arsitektur penyimpanan dan pemrosesan data inkremental yang dirancang sendiri berdasarkan arsitektur pemrosesan batch offline-nya. Ini dapat menyediakan solusi terpadu untuk pemrosesan inkremental hampir real-time dan offline. Sementara tetap mempertahankan keunggulan ekonomis dan efisien dari pemrosesan batch, ia juga memiliki kemampuan untuk memenuhi kebutuhan bisnis untuk membaca, menulis, dan memproses data inkremental tingkat menit. Selain itu, ia menyediakan serangkaian fitur praktis seperti Upsert dan Time Travel untuk memperluas skenario bisnis, secara efektif mengurangi biaya komputasi, penyimpanan, dan migrasi data, serta meningkatkan pengalaman pengguna.

Arsitektur hampir real-time MaxCompute

image

Gambar di atas menunjukkan arsitektur baru di mana MaxCompute secara efisien mendukung skenario bisnis komprehensif yang disebutkan di atas. Dalam arsitektur baru ini, MaxCompute mendukung berbagai sumber data untuk memungkinkan Anda dengan mudah mengimpor data inkremental dan penuh ke sistem penyimpanan terpadu menggunakan alat akses kustom. Layanan manajemen data latar belakang secara otomatis mengoptimalkan struktur penyimpanan data. Mesin komputasi terpadu digunakan untuk mendukung pemrosesan data inkremental hampir real-time dan pemrosesan batch data offline berskala besar. Layanan metadata terpadu digunakan untuk mendukung manajemen metadata transaksi dan file.

Keuntungan dari arsitektur ini sangat signifikan. Ini secara efektif menyelesaikan masalah seperti komputasi dan penyimpanan berlebihan serta ketepatan waktu rendah yang disebabkan oleh sistem offline murni yang memproses data inkremental. Ini juga menghindari biaya konsumsi sumber daya tinggi dari sistem real-time atau aliran. Selain itu, ini menghilangkan masalah ketidaksesuaian dari beberapa sistem dalam arsitektur Lambda dan mengurangi biaya penyimpanan berlebihan dari beberapa salinan serta biaya migrasi data antar sistem.

Optimizer SQL telah ditingkatkan dengan optimasi spesifik untuk query inkremental, terutama dalam konteks refresh inkremental untuk materialized view. Berdasarkan estimasi biaya, optimizer memutuskan apakah akan menggunakan algoritma inkremental berbasis state atau algoritma inkremental berbasis snapshot untuk operasi refresh. Lapisan akselerasi query (MaxQA) dibangun di atas dasar sumber daya yang diisolasi kuat berbasis virtual warehouse, yang tidak hanya meningkatkan kinerja query tetapi juga memastikan stabilitas tinggi dan kinerja konsisten di seluruh query. Mengandalkan FDC yang dikembangkan sendiri, lapisan akselerasi telah mengoptimalkan cache full-link, optimizer telah menambahkan mode optimasi berorientasi latensi, dan runtime telah lebih mengoptimalkan eksekusi vektorisasi untuk menghindari overhead terkait Codegen selama fase eksekusi.

Arsitektur terpadu ujung ke ujung memenuhi kebutuhan bisnis untuk optimasi komputasi dan penyimpanan pemrosesan data inkremental dan ketepatan waktu tingkat menit, memastikan efisiensi keseluruhan pemrosesan batch, dan secara efektif mengurangi biaya sumber daya.

Fitur inti

Gudang data hampir real-time MaxCompute menyediakan tiga fitur inti berikut: tabel Delta, komputasi inkremental, dan MaxQA. Fitur tabel Delta mendukung impor data tingkat menit, fitur komputasi inkremental membantu menyeimbangkan latensi dan throughput dengan lebih baik, dan fitur MaxQA yang ditingkatkan mendukung respons query dalam hitungan detik.

image

Ketiga fitur inti tersebut adalah sebagai berikut:

  • Tabel Delta: Format tabel data inkremental. Ini memungkinkan impor data tingkat menit, menggunakan AliORC sebagai format file dasar, mendukung semantik UPSERT, dan dapat menyediakan metode standar change data capture (CDC) untuk membaca dan menulis data inkremental. Ini mengandalkan layanan penyimpanan dan metadata backend MaxCompute untuk manajemen data otomatis.

  • Komputasi Inkremental: Berdasarkan fitur tabel Delta, MaxCompute telah menambahkan serangkaian kemampuan komputasi inkremental, seperti materialized view inkremental, Time Travel, dan tabel aliran. Pada saat yang sama, materialized view inkremental dan tugas yang dijadwalkan secara berkala memberikan frekuensi pemicu yang berbeda, memberi pengguna lebih banyak cara untuk menyeimbangkan latensi dan throughput.

  • MaxQA: Ini adalah peningkatan lengkap dari akselerasi query MaxCompute. Ini meningkatkan stabilitas kinerja melalui lingkungan yang diisolasi kuat dan memperluas dukungan SQL dari hanya query DQL SELECT (MCQA 1.0) menjadi query SQL lengkap, termasuk pernyataan DDL dan DML. Selain itu, ini lebih meningkatkan kinerja melalui metode optimasi seperti cache end-to-end dan asinkronisasi beberapa langkah dalam pipeline pengiriman pekerjaan.

Kemampuan baru ini semua dibangun dan diimplementasikan berdasarkan mesin SQL asli MaxCompute. Pengguna MaxCompute dapat menganalisis data besar dengan efisiensi biaya yang lebih tinggi tanpa mengubah kebiasaan pengembangan mereka.

Keunggulan

Arsitektur baru ini dirancang untuk mendukung secara komprehensif fitur umum format danau data open source seperti Hudi dan Iceberg, memfasilitasi migrasi lancar di seluruh pipeline bisnis terkait. Sebagai arsitektur yang sepenuhnya dikembangkan sendiri, ia menawarkan banyak keunggulan unik dalam hal fungsi, kinerja, stabilitas, dan integrasi:

  • Menyediakan desain terpadu untuk penyimpanan, metadata, dan mesin komputasi untuk mencapai integrasi mendalam dan efisien dari mesin. Arsitektur baru ini memberikan manfaat berikut: biaya penyimpanan rendah, manajemen file data yang efisien, dan efisiensi query tinggi. Selain itu, banyak aturan optimasi untuk query batch MaxCompute dapat digunakan kembali oleh Time Travel dan query inkremental.

  • Menyediakan sintaks SQL terpadu lengkap untuk mendukung semua fitur arsitektur baru. Ini memfasilitasi operasi pengguna.

  • Menyediakan alat impor data yang dioptimalkan dan disesuaikan secara mendalam untuk mendukung berbagai skenario bisnis kompleks.

  • Berintegrasi mulus dengan skenario bisnis yang ada dari MaxCompute untuk mengurangi biaya migrasi, penyimpanan, dan komputasi.

  • Mendukung manajemen otomatis file data untuk memastikan stabilitas dan kinerja baca/tulis yang lebih baik, dan mendukung optimasi otomatis efisiensi penyimpanan dan biaya.

  • Dikelola sepenuhnya di MaxCompute. Anda dapat menggunakan arsitektur baru ini langsung tanpa biaya akses tambahan. Anda hanya perlu membuat tabel Delta untuk menggunakan fitur arsitektur baru.

  • Memungkinkan kontrol penuh atas jadwal pengembangan dan persyaratan karena ini adalah arsitektur yang sepenuhnya dikembangkan sendiri.