Analitik Real-Time Skalabel pada Data Warehouse Berbasis Cloud-Native - AnalyticDB

Apa itu AnalyticDB?

AnalyticDB adalah layanan gudang data real-time berbasis cloud-native yang dikembangkan oleh Alibaba Cloud. AnalyticDB memungkinkan Anda menulis data dari database OLTP dan file log secara real-time serta menganalisis petabyte data dalam hitungan detik. AnalyticDB menggunakan arsitektur penyimpanan-komputasi terpisah berbasis cloud-native yang mendukung metode penagihan bayar sesuai pemakaian untuk penyimpanan dan fitur skalabilitas elastis untuk komputasi. AnalyticDB menyediakan pemrosesan batch dan analisis real-time dengan isolasi sumber daya, memenuhi kebutuhan perusahaan akan efisiensi pemrosesan data, kontrol biaya, dan stabilitas sistem. AnalyticDB kompatibel dengan ekosistem MySQL, PostgreSQL, dan Spark.

AnalyticDB tersedia dalam dua mesin: AnalyticDB for MySQL dan AnalyticDB for PostgreSQL.

Item		AnalyticDB for MySQL	AnalyticDB for PostgreSQL
Ekosistem		Sangat kompatibel dengan MySQL Sangat kompatibel dengan Spark	Sepenuhnya kompatibel dengan PostgreSQL Sangat kompatibel dengan Oracle
Edition		Data Lakehouse Edition Data Warehouse Edition	6.0 Standard Edition 7.0 Standard Edition
Architecture		Storage-compute decoupled architecture
Skalabilitas	Kesamaan	Vertical scaling Horizontal scaling
	Perbedaan	Menggunakan model penskalaan multi-cluster untuk secara otomatis menyesuaikan sumber daya Menggunakan model min-max untuk secara otomatis menyesuaikan sumber daya secara terjadwal	Menggunakan pekerjaan terjadwal untuk mengubah konfigurasi secara terjadwal Menyesuaikan sumber daya sesuai permintaan dalam mode Serverless
Fitur	Kesamaan	Vector search Full-text search Batch processing Real-time materialized views
	Perbedaan	Data lakes Spark batch processing Diagnosis cerdas dan optimasi kinerja query	Retrieval-Augmented Generation (RAG) service Analisis data spatio-temporal
Skenario	Kesamaan	Gudang data real-time Analisis log real-time Laporan business intelligence (BI)
	Perbedaan	Pemasaran presisi Analisis gabungan multi-sumber Penyimpanan dan analisis data besar Peningkatan kueri data offline Migrasi data dari layanan data lake atau data warehouse lainnya, seperti Databricks, Athena, dan kluster Spark atau Presto yang dikelola sendiri	Pembuatan end-to-end aplikasi Large Language Model (LLM) Basis pengetahuan perusahaan khusus Analisis data besar berbasis Geographic Information System (GIS) Integrasi pemrosesan batch dengan analisis real-time Migrasi data dari layanan data warehouse lainnya, seperti Greenplum, Redshift, Synapse, Snowflake, dan BigQuery
Industri		Gaming, ritel, dan otomotif	Ritel, e-commerce, dan pendidikan
Efisiensi biaya	Kesamaan	Biaya penyimpanan data berdasarkan volume data aktual Penyimpanan bertingkat untuk data panas dan dingin guna mengurangi biaya penyimpanan Penskalaan terjadwal berdasarkan fluktuasi lalu lintas reguler untuk memastikan sumber daya cukup selama lonjakan lalu lintas dan mencegah sumber daya menganggur setelah lonjakan lalu lintas
	Perbedaan	Auto scaling berdasarkan beban kerja bisnis	Memulai atau menjeda instans secara manual berdasarkan kebutuhan bisnis

Pengenalan AnalyticDB for MySQL

Sumber Data

AnalyticDB Pipeline Service (APS) digunakan untuk mengimplementasikan akses data sumber dengan biaya rendah, termasuk database, log, dan platform data besar.

Lapisan Penyimpanan dan Lapisan Komputasi

Data Lakehouse Edition menyediakan dua mesin internal: mesin komputasi XIHE dan mesin penyimpanan XUANWU. Data Lakehouse Edition juga mendukung mesin komputasi open source Spark dan mesin penyimpanan Hudi. Data Lakehouse Edition cocok untuk berbagai skenario analisis data dan mendukung interoperabilitas antara mesin internal dan open source untuk manajemen data terpusat.

Lapisan Penyimpanan: Satu salinan data lengkap dapat digunakan baik untuk pemrosesan batch maupun analisis real-time.
Dalam skenario pemrosesan batch, data disimpan pada media penyimpanan berbiaya rendah untuk mengurangi biaya. Dalam skenario analisis real-time, data disimpan pada media penyimpanan cepat untuk meningkatkan performa. Untuk memenuhi persyaratan pemrosesan batch, Data Lakehouse Edition menyimpan satu salinan data lengkap pada media penyimpanan berbiaya rendah dengan throughput tinggi, mengurangi biaya penyimpanan dan I/O sambil memastikan throughput tinggi. Untuk memenuhi persyaratan analisis real-time dalam 100 milidetik, Data Lakehouse Edition menyimpan data real-time pada unit I/O elastis individual (EIUs), membantu memenuhi persyaratan ketepatan waktu untuk kueri baris, pengindeksan penuh, dan percepatan cache.
Lapisan Komputasi: Sistem secara otomatis memilih mode komputasi yang sesuai untuk mesin komputasi XIHE. Mesin komputasi open source Spark cocok untuk berbagai skenario.
Mesin komputasi XIHE menyediakan dua mode komputasi: pemrosesan paralel masif (MPP) dan paralel sinkron bulk (BSP). Mode MPP menggunakan komputasi aliran, tidak cocok untuk skenario pemrosesan batch berbiaya rendah dan throughput tinggi. Mode BSP membagi tugas dalam DAG dan menghitung data untuk setiap tugas, memungkinkan pemrosesan sejumlah besar data dengan sumber daya terbatas dan penyimpanan data di disk. Jika mode MPP gagal memproses data dalam periode waktu tertentu, mesin komputasi XIHE beralih secara otomatis ke mode BSP untuk melanjutkan pemrosesan.
Mesin komputasi open source Spark cocok untuk skenario pemrosesan batch kompleks dan pembelajaran mesin. Lapisan komputasi dan lapisan penyimpanan dipisahkan tetapi saling terhubung, memungkinkan Anda membuat dan mengonfigurasi grup sumber daya Spark dengan mudah.

Lapisan Akses

Lapisan akses memanfaatkan unit penagihan terpadu, metadata dan izin, bahasa pengembangan, serta tautan transmisi untuk meningkatkan efisiensi pengembangan.

Untuk informasi lebih lanjut tentang AnalyticDB for MySQL editions, lihat Editions.

Pengenalan AnalyticDB for PostgreSQL

AnalyticDB for PostgreSQL tersedia dalam mode penyimpanan elastis dan mode Serverless. Mode penyimpanan elastis menggunakan arsitektur shared-nothing berbasis Elastic Compute Service (ECS) dan Enterprise SSDs (ESSDs) serta menyediakan kemampuan MPP. Mode Serverless menggunakan arsitektur shared-storage berbasis ECS, cache lokal, dan Object Storage Service (OSS) serta menyediakan kemampuan penyimpanan dan komputasi terpisah.

Sebuah instans AnalyticDB for PostgreSQL terdiri dari node koordinator dan beberapa node komputasi. Node koordinator bertanggung jawab atas manajemen metadata dan load balancing. Node komputasi bertanggung jawab atas pemrosesan data. Node komputasi mengintegrasikan optimizer Orca dan mesin eksekusi Laser yang dikembangkan sendiri serta mesin penyimpanan Beam untuk implementasi kueri berperforma tinggi. Node komputasi juga menggunakan incremental materialized views (IMVs) untuk membangun gudang data real-time. AnalyticDB for PostgreSQL menyimpan data panas pada ESSDs yang terpasang pada node komputasi dan data dingin di OSS. Penyimpanan bertingkat untuk data panas dan dingin membantu meningkatkan performa kueri dan mengurangi biaya penyimpanan. AnalyticDB for PostgreSQL menggunakan arsitektur yang memisahkan sumber daya komputasi dari sumber daya penyimpanan. Sumber daya komputasi pada node komputasi dapat diskalakan secara fleksibel berdasarkan kebutuhan beban kerja untuk meningkatkan performa dan pemanfaatan sumber daya. Sumber daya penyimpanan dapat ditingkatkan tetapi tidak dapat dikurangi, memastikan persistensi data dan stabilitas sistem serta memungkinkan peningkatan kapasitas penyimpanan secara fleksibel seiring pertumbuhan volume data.

AnalyticDB:Pengenalan Produk

Apa itu AnalyticDB?

Pengenalan AnalyticDB for MySQL

Pengenalan AnalyticDB for PostgreSQL

Referensi

Manfaat

Skenario