E-MapReduce (EMR) Serverless StarRocks adalah layanan StarRocks yang sepenuhnya dikelola di Alibaba Cloud. Anda dapat membuat instans StarRocks serta mengelola instans dan datanya melalui Konsol EMR—tanpa perlu mengonfigurasi, mengoperasikan, atau melakukan scaling kluster secara manual.
Apa itu StarRocks
StarRocks adalah database analitik yang dirancang untuk analisis data multidimensi yang cepat, real-time, dan efisien. StarRocks menggunakan arsitektur Pemrosesan Paralel Masif (MPP) dengan mesin eksekusi vektorisasi, pengoptimal berbasis biaya (CBO), tampilan yang di-materialisasi cerdas, serta mesin penyimpanan kolom yang dapat diperbarui secara real-time. StarRocks kompatibel dengan protokol MySQL, sehingga klien MySQL apa pun atau alat BI umum dapat terhubung langsung ke dalamnya. StarRocks mendukung scaling horizontal dan dirancang untuk ketersediaan tinggi serta keandalan tinggi.
StarRocks cocok untuk skenario analitik berikut:
-
Gudang data real-time — sinkronkan perubahan dari database transaksional dalam hitungan detik dan kueri data terkini
-
Pemrosesan analitik daring (OLAP) — jalankan laporan multidimensi, dasbor self-service, dan kueri ad hoc
-
Analisis data lake — kueri data di Apache Hive, Apache Iceberg, Apache Hudi, dan Delta Lake tanpa perlu migrasi
Kemampuan inti
Kerangka kerja MPP
StarRocks membagi setiap kueri menjadi unit-unit komputasi fisik yang dijalankan secara paralel di berbagai mesin, masing-masing dengan CPU dan memori khusus. Saat Anda melakukan scale out kluster, performa kueri tunggal juga meningkat seiring dengannya.
Mesin eksekusi vektorisasi
Mesin eksekusi vektorisasi mengoptimalkan semua operator, fungsi, modul pemindaian dan penyaringan, serta modul impor dan ekspor pada level CPU. Mesin ini menggunakan instruksi single instruction, multiple data (SIMD) untuk memproses lebih banyak data per siklus clock—benchmark pada dataset standar menunjukkan peningkatan performa operator keseluruhan sebesar 3–10 kali lipat.
Mesin ini juga mencakup Operation on Encoded Data, yang menjalankan operator join, agregasi, dan ekspresi langsung pada string terenkripsi tanpa perlu mendekripsinya terlebih dahulu. Hal ini mengurangi kompleksitas eksekusi SQL dan meningkatkan kecepatan kueri lebih dari dua kali lipat.
Pemisahan komputasi dan penyimpanan
Diperkenalkan di StarRocks 3.0, arsitektur pemisahan komputasi dan penyimpanan memisahkan komponen komputasi dari penyimpanan sehingga masing-masing dapat diskalakan secara independen. Node komputasi dapat diskalakan dalam hitungan detik, menghilangkan kebutuhan over-provisioning yang biasanya diperlukan ketika komputasi dan penyimpanan harus berkembang bersamaan.
Lapisan penyimpanan menggunakan berbagai layanan penyimpanan objek dengan kapasitas hampir tak terbatas dan kompatibel dengan Hadoop Distributed File System (HDFS). Arsitektur pemisahan komputasi dan penyimpanan mempertahankan paritas fitur penuh dengan arsitektur integrasi komputasi dan penyimpanan—pembaruan data, analisis data lake, dan akselerasi tampilan yang di-materialisasi semuanya bekerja dengan cara yang sama. Performa penulisan data dan kueri data panas hampir identik pada kedua arsitektur tersebut.
Pengoptimal berbasis biaya
Pada kueri join multi-tabel yang kompleks, jumlah rencana eksekusi valid meningkat secara eksponensial seiring bertambahnya jumlah tabel, sehingga pemilihan rencana optimal menjadi masalah NP-hard. CBO StarRocks menggunakan arsitektur bergaya cascades yang disesuaikan untuk mesin eksekusi vektorisasi. CBO ini mendukung:
-
Penggunaan ulang sub-ekspresi umum dan penulisan ulang subkueri
-
Lateral Join dan Penyusunan Ulang Join
-
Pemilihan kebijakan eksekusi join terdistribusi
-
Optimasi pengodean kamus dengan kardinalitas rendah
CBO ini mendukung ke-99 pernyataan SQL TPC-DS.
Mesin penyimpanan kolom real-time
StarRocks menyimpan data dalam format kolom, meningkatkan rasio kompresi, mengurangi I/O disk, dan mempercepat kueri yang hanya membaca subset kolom—pola umum dalam beban kerja OLAP. StarRocks memungkinkan Anda memuat data dalam hitungan detik dan menyediakan kemampuan pemrosesan data near-real-time.
Mesin penyimpanan ini menjamin ACID (atomicity, consistency, isolation, dan durability) untuk impor data. Impor batch berhasil atau gagal secara atomik, dan transaksi konkuren mendapat manfaat dari isolasi snapshot. Mesin ini juga mendukung operasi partial update dan upsert, serta menggunakan indeks kunci primer dengan mode Delete-and-Insert untuk menghindari overhead sort-and-merge saat membaca. Indeks sekunder menangani skenario pembaruan data ber-throughput tinggi.
Tampilan yang di-materialisasi cerdas
Tampilan yang di-materialisasi di StarRocks bekerja secara otomatis:
-
Sinkronisasi otomatis — saat data di tabel sumber berubah, tampilan yang di-materialisasi terkait mendeteksi dan menerapkan pembaruan tersebut secara real-time, menjaga konsistensi data
-
Penulisan ulang kueri transparan — selama perencanaan kueri, StarRocks mendeteksi kapan tampilan yang di-materialisasi dapat mempercepat kueri dan secara otomatis menulis ulang kueri tersebut; tidak diperlukan perubahan aplikasi
-
Manajemen siklus hidup di latar belakang — buat dan hapus tampilan yang di-materialisasi tanpa intervensi manual; sistem menangani operasi tersebut di latar belakang
-
Pengganti ETL — gunakan tampilan yang di-materialisasi untuk mentransformasi dan memproses data secara langsung, menggantikan pipeline extract, transform, and load (ETL) tradisional dan pra-pemrosesan hulu
Analisis data lake
Gunakan katalog eksternal untuk mengkueri data lake secara langsung—tanpa perlu migrasi data. StarRocks mendukung:
-
Format tabel: Apache Hive, Apache Iceberg, Apache Hudi, Delta Lake
-
Format file: Parquet, ORC, CSV
-
Layanan penyimpanan: HDFS, Amazon Simple Storage Service (S3), Object Storage Service (OSS)
Dalam model ini, data lake berfungsi sebagai single source of truth (SSOT) untuk beban kerja BI, AI, kueri ad hoc, dan pelaporan, sedangkan StarRocks menangani komputasi dan analisis menggunakan mesin vektorisasinya dan CBO.
Apa yang ditambahkan oleh Serverless StarRocks
Menjalankan StarRocks secara mandiri berarti menyediakan kluster, merencanakan peningkatan versi, mengonfigurasi keamanan, dan memantau sistem. EMR Serverless StarRocks menghilangkan beban operasional tersebut:
-
Tanpa manajemen kluster — layanan ini sepenuhnya dikelola dan bebas O&M; lewati penentuan ukuran kluster, penyiapan, dan penyetelan berkelanjutan
-
Manajemen instans tervisualisasi — kelola instans dan jalankan tugas O&M dari Konsol EMR
-
Pemantauan tervisualisasi — dasbor pemantauan dan O&M bawaan
-
Peningkatan versi otomatis — versi mayor dan minor StarRocks ditingkatkan secara otomatis
-
Manajemen tingkat enterprise dengan EMR StarRocks Manager:
-
*Keamanan*: kelola pengguna dan izin
-
*Analisis diagnostik*: identifikasi kueri SQL lambat dan analisis eksekusi SQL dengan alat visual
-
*Manajemen data*: telusuri database, tabel, partisi, shard, dan tugas untuk menyederhanakan O&M
-