全部产品
Search
文档中心

E-MapReduce:Apa itu EMR Serverless StarRocks?

更新时间:Jun 24, 2025

E-MapReduce (EMR) Serverless StarRocks adalah layanan terkelola penuh untuk StarRocks open source di Alibaba Cloud. Anda dapat membuat instance Serverless StarRocks dan mengelola instance serta data tersebut secara fleksibel melalui konsol EMR. Topik ini menjelaskan fitur inti dari StarRocks open source serta fitur tambahan yang disediakan oleh Serverless StarRocks berdasarkan StarRocks open source.

Ikhtisar StarRocks open source

StarRocks adalah database analitik yang mendukung protokol MySQL. StarRocks menggunakan kerangka kerja Massively Parallel Processing (MPP) dan menyediakan mesin eksekusi vektor, pengoptimal berbasis biaya (CBO), tampilan material cerdas, serta mesin penyimpanan kolom yang dapat diperbarui secara real-time. Hal ini memungkinkan Anda mencapai analisis data multidimensi yang cepat, real-time, dan efisien. Anda dapat mengimpor sumber data real-time atau offline ke StarRocks untuk analisis data, atau langsung menganalisis data dalam berbagai format di data lake. StarRocks kompatibel dengan protokol MySQL, sehingga Anda dapat menggunakan klien MySQL dan alat BI umum untuk terhubung ke StarRocks. StarRocks menawarkan kemampuan penskalaan horizontal serta ketersediaan tinggi, keandalan tinggi, dan operasi yang mudah. Anda dapat menggunakan StarRocks dalam berbagai skenario analisis, seperti analisis data di gudang data real-time, laporan OLAP, dan data lake.

Fitur StarRocks open source

Kerangka kerja MPP

StarRocks menggunakan kerangka kerja Massively Parallel Processing (MPP). Permintaan query dibagi menjadi beberapa unit komputasi fisik yang dapat dieksekusi secara paralel di beberapa mesin. Setiap mesin dilengkapi dengan sumber daya CPU dan memori khusus. Kerangka kerja MPP memungkinkan satu permintaan sepenuhnya memanfaatkan sumber daya dari semua mesin, sehingga performa query tunggal dapat terus ditingkatkan ketika kluster diperluas.

Mesin eksekusi vektor penuh

StarRocks mengadopsi teknologi vektorisasi di lapisan komputasi untuk mengoptimalkan semua operator, fungsi, modul pemindaian dan penyaringan, serta modul impor dan ekspor secara sistematis. Mesin eksekusi vektor memaksimalkan kemampuan pemrosesan CPU dengan mengatur dan memproses data yang disimpan dalam kolom. Ini meningkatkan efisiensi kerja secara signifikan. StarRocks menyimpan data, mengatur data dalam memori, dan menghitung operator SQL berdasarkan kolom, yang memanfaatkan cache CPU sepenuhnya dan mengurangi panggilan fungsi virtual serta penilaian cabang. Akibatnya, instruksi CPU dieksekusi secara lancar dan efisien.

Mesin eksekusi vektor dapat menggunakan lebih sedikit instruksi Single Instruction, Multiple Data (SIMD) yang disediakan oleh CPU untuk melakukan lebih banyak operasi data. Pengujian pada dataset standar menunjukkan bahwa performa keseluruhan operator meningkat sebesar 3 hingga 10 kali lipat.

Selain vektorisasi penuh operator, mesin eksekusi StarRocks menyediakan teknologi optimasi lainnya, seperti Operasi pada Data Terenkripsi. Teknologi ini memungkinkan StarRocks untuk mengeksekusi berbagai operator, seperti join, agregasi, dan operator ekspresi, pada string terenkripsi tanpa perlu mendekode data. Hal ini mengurangi kompleksitas komputasi selama eksekusi pernyataan SQL dan meningkatkan kecepatan query lebih dari dua kali lipat.

Pemisahan komputasi-penyimpanan

StarRocks 3.0 mendukung arsitektur pemisahan komputasi-penyimpanan. Arsitektur ini memisahkan sumber daya komputasi dari sumber daya penyimpanan, meningkatkan fleksibilitas, performa, dan keandalan StarRocks serta mengurangi biaya.

Dalam arsitektur pemisahan komputasi-penyimpanan, penyimpanan dan sumber daya komputasi dapat ditingkatkan atau dikurangi secara terpisah. Hal ini mencegah pemborosan sumber daya yang disebabkan oleh penskalaan proporsional antara komputasi dan penyimpanan dalam arsitektur integrasi komputasi-penyimpanan. Selain itu, node komputasi dapat diskalakan secara dinamis dalam hitungan detik, yang meningkatkan pemanfaatan sumber daya secara signifikan.

Lapisan penyimpanan StarRocks menyediakan kapasitas hampir tak terbatas dan penyimpanan objek dengan ketersediaan tinggi. StarRocks mendukung berbagai layanan penyimpanan objek dan kompatibel dengan HDFS, memastikan penyimpanan dan persistensi data skala besar.

Arsitektur pemisahan komputasi-penyimpanan mempertahankan fitur yang disediakan oleh arsitektur integrasi komputasi-penyimpanan. Performa penulisan data dan kueri data panas hampir sama dalam kedua arsitektur. Anda dapat menggunakan arsitektur pemisahan komputasi-penyimpanan untuk melakukan operasi yang sama, seperti pembaruan data, analisis data lake, dan akselerasi berbasis tampilan material, seperti yang Anda lakukan dengan menggunakan arsitektur integrasi komputasi-penyimpanan.

Pengoptimal CBO

Dalam kueri join tabel multipel, mesin eksekusi yang memberikan performa tinggi mungkin tidak dapat memastikan performa eksekusi optimal karena efisiensi rencana eksekusi yang berbeda sangat bervariasi. Seiring bertambahnya jumlah tabel join, jumlah rencana eksekusi efektif meningkat secara eksponensial, yang membuat pencarian rencana eksekusi optimal menjadi NP-hard. Dalam kasus ini, pengoptimal kueri yang dapat secara akurat menemukan rencana kueri terbaik diperlukan untuk mencapai performa optimal dalam kueri join tabel multipel.

StarRocks menyediakan CBO baru. CBO mengadopsi arsitektur mirip cascades dan disesuaikan untuk mesin eksekusi vektor StarRocks untuk menyediakan berbagai langkah inovatif dan dioptimalkan. CBO membantu Anda menggunakan kembali ekspresi umum dan menulis ulang subquery terkait. CBO juga mendukung Lateral Join, Join Reorder, dan pemilihan kebijakan untuk eksekusi join terdistribusi, serta mengoptimalkan performa fitur utama seperti pengkodean kamus low-cardinality. CBO mendukung total 99 pernyataan SQL TPC-DS.

StarRocks unggul dibandingkan pesaingnya dalam kueri join tabel multipel, terutama dalam kueri join tabel multipel yang kompleks. Hal ini meningkatkan potensi performa mesin eksekusi vektor secara signifikan.

Mesin penyimpanan kolom yang dapat diperbarui secara real-time

StarRocks menggunakan mesin penyimpanan kolom canggih untuk menyimpan data dengan tipe yang sama dalam kolom. Penyimpanan kolom memungkinkan data dikodekan dengan cara yang lebih efisien, meningkatkan rasio kompresi data, mengurangi biaya penyimpanan, dan mengurangi I/O disk selama proses query. Akibatnya, kecepatan query meningkat secara signifikan. Dalam skenario OLAP tipikal, hanya data kolom tertentu yang dikueri. Penyimpanan kolom memungkinkan Anda membaca data hanya dari kolom yang diperlukan, yang mengurangi beban I/O pada disk secara signifikan.

StarRocks memungkinkan Anda memuat data dalam hitungan detik dan menyediakan kemampuan pemrosesan data mendekati real-time. Mesin penyimpanan StarRocks memastikan atomicity, consistency, isolation, durability (ACID) selama impor data. Saat Anda mengimpor data dalam batch, transaksi impor berhasil atau gagal. Mesin penyimpanan memungkinkan beberapa transaksi dieksekusi secara paralel dan menyediakan fitur isolasi snapshot untuk transaksi tersebut.

Mesin penyimpanan juga mendukung operasi seperti pembaruan sebagian dan upsert. Mode Delete-and-Insert mesin penyimpanan memungkinkan Anda memfilter data dengan cepat menggunakan indeks kunci utama, mencegah operasi sort dan merge dilakukan selama proses pembacaan data. Mesin penyimpanan juga dapat menggunakan indeks sekunder untuk merespons permintaan query dengan cepat dalam skenario pembaruan data skala besar.

Tampilan material cerdas

  • Sinkronisasi data otomatis dan pembaruan real-time: StarRocks memungkinkan Anda menggunakan tampilan material untuk mempercepat query dan melakukan layering gudang data. Tampilan material StarRocks dapat secara otomatis menyinkronkan data dari tabel asli. Saat data di tabel asli berubah, tampilan material yang sesuai dapat mendeteksi dan menyinkronkan data secara real-time, memastikan konsistensi data. StarRocks dapat secara otomatis memilih tampilan material. Dalam fase perencanaan query, jika StarRocks mendeteksi bahwa tampilan material dapat meningkatkan efisiensi query, StarRocks secara otomatis menulis ulang query untuk memastikan tampilan material optimal digunakan untuk query.

  • Pembuatan dan manajemen tampilan material yang fleksibel: StarRocks memungkinkan Anda membuat dan menghapus tampilan material secara fleksibel. Setelah Anda memicu pembuatan atau penghapusan, sistem menyelesaikan operasi di latar belakang tanpa intervensi manual.

  • Proses ETL yang disederhanakan dan pemrosesan data: Tampilan material StarRocks dapat menggantikan proses pemodelan ETL tradisional. Anda dapat langsung mentransformasi dan memproses data saat menggunakan tampilan material tanpa perlu mentransformasi data di aplikasi upstream. Hal ini menyederhanakan proses pemrosesan data.

Analisis data lake

Anda dapat menggunakan StarRocks untuk menganalisis data lokal dan data yang disimpan di data lake secara efisien. Anda dapat menggunakan katalog eksternal yang disediakan oleh StarRocks untuk menanyakan data yang disimpan di data lake, seperti Apache Hive, Apache Iceberg, Apache Hudi, dan Delta Lake, tanpa perlu memigrasi data. StarRocks mendukung format file seperti Parquet, ORC, dan CSV. StarRocks memungkinkan Anda menyimpan data menggunakan layanan seperti HDFS, Amazon Simple Storage Service (S3), dan Object Storage Service (OSS).

Dalam skenario analisis data lake, StarRocks digunakan untuk menghitung dan menganalisis data, sedangkan data lake digunakan untuk menyimpan, mengatur, dan memelihara data. Data lake memungkinkan Anda menyimpan data dalam berbagai format dan mendefinisikan skema secara fleksibel. Data lake menawarkan sumber kebenaran tunggal (SSOT) untuk berbagai skenario bisnis, seperti BI, AI, kueri ad hoc, dan pelaporan data, untuk memastikan konsistensi dan akurasi data. StarRocks sepenuhnya memanfaatkan keunggulan mesin eksekusi vektor dan CBO untuk meningkatkan performa analisis data lake.

Fitur tambahan Serverless StarRocks

Serverless StarRocks mengoptimalkan fitur tingkat perusahaan dalam aspek berikut:

  • O&M yang mudah: Serverless StarRocks adalah layanan terkelola penuh tanpa O&M, yang secara signifikan mengurangi kompleksitas dan biaya O&M StarRocks.

  • Manajemen visual instance StarRocks: Anda dapat mengelola instance StarRocks dan melakukan O&M pada instance tersebut dengan cara yang nyaman.

  • Kemampuan pemantauan dan O&M visual.

  • Peningkatan otomatis versi mayor dan minor StarRocks: Anda dapat mengelola versi StarRocks dengan cara yang nyaman.

  • Dukungan untuk EMR StarRocks Manager: Serverless StarRocks menyediakan kemampuan manajemen tingkat perusahaan.

    • Kemampuan keamanan: Anda dapat mengelola pengguna dan izin.

    • Analisis diagnostik: Serverless StarRocks mendukung kueri SQL lambat visual dan kemampuan analisis kueri SQL.

    • Manajemen data: Anda dapat menanyakan database, tabel, partisi, shard, dan tugas, meningkatkan efisiensi O&M.