Topik ini memperkenalkan StarRocks dan menjelaskan fitur serta skenario penggunaannya.
Apa itu StarRocks?
StarRocks adalah database pemrosesan paralel masif (MPP) generasi baru yang mendukung analisis data secara efisien dan terpadu.
StarRocks kompatibel dengan protokol MySQL. Anda dapat menggunakan klien MySQL atau alat business intelligence (BI) umum untuk mengakses StarRocks dan menganalisis data.
StarRocks menggunakan arsitektur terdistribusi dengan kemampuan berikut:
Membagi tabel secara horizontal dan menyimpan data dalam beberapa replika.
Menyesuaikan ukuran kluster secara fleksibel untuk mendukung analisis data hingga 10 PB.
Mendukung arsitektur MPP untuk mempercepat komputasi data.
Mendukung beberapa replika untuk memastikan toleransi kesalahan.
Beberapa informasi dalam topik ini berasal dari What is StarRocks dari StarRocks sumber terbuka.
Fitur
Tim StarRocks mengadopsi ide desain database MPP dan sistem terdistribusi. StarRocks memiliki fitur-fitur berikut:
Arstitektur yang disederhanakan
StarRocks menggunakan kerangka komputasi MPP untuk mengeksekusi pernyataan SQL. Kerangka ini memanfaatkan kemampuan komputasi dari beberapa node untuk menjalankan kueri secara bersamaan, meningkatkan pengalaman pengguna dalam analitik interaktif.
StarRocks mudah diterapkan, digunakan, dan dirawat. Anda dapat menggunakan kluster StarRocks tanpa komponen eksternal, mengurangi biaya O&M serta meningkatkan keandalan dan skalabilitas sistem. Administrator hanya perlu fokus pada sistem StarRocks tanpa harus belajar atau mengelola sistem eksternal.
Mesin vektorisasi
StarRocks mengadopsi teknologi vektorisasi di lapisan komputasi untuk mengoptimalkan semua operator, fungsi, modul pemindaian dan penyaringan, serta modul impor dan ekspor secara sistematis. StarRocks sepenuhnya memanfaatkan daya komputasi paralel CPU melalui metode seperti tata letak memori kolom dan instruksi tunggal, data ganda (SIMD) di CPU. Dengan cara ini, Anda dapat melakukan analisis multidimensi pada data dengan kecepatan sub-detik.
Optimasi kueri cerdas
StarRocks menggunakan optimalisasi berbasis biaya (CBO) untuk melakukan optimasi otomatis pada kueri kompleks. CBO memanfaatkan informasi statistik untuk memperkirakan biaya eksekusi dan menghasilkan rencana eksekusi tanpa operasi manual. Ini meningkatkan efisiensi analisis data dalam skenario kueri ad hoc dan ETL.
Kueri federasi
StarRocks mendukung kueri federasi menggunakan tabel eksternal. Tabel eksternal Hive, MySQL, Elasticsearch, Iceberg, dan Hudi didukung. Anda dapat menanyakan data tanpa perlu mengimpor data, mempercepat kueri.
Pembaruan efisien
StarRocks menyediakan model untuk kueri rinci, agregasi data, kunci utama, dan pembaruan data. Model untuk kunci utama membantu Anda melakukan operasi UPSERT atau DELETE berdasarkan kunci utama. StarRocks mengoptimalkan penyimpanan dan pengindeksan untuk memastikan bahwa kueri selama pembaruan bersamaan tetap efisien dan memenuhi persyaratan gudang data waktu nyata.
Tampilan material cerdas
StarRocks mendukung tampilan material cerdas. Anda dapat membuat tampilan material dan melakukan pra-perhitungan untuk menghasilkan tabel pra-agregat, mempercepat permintaan kueri agregasi.
Data secara otomatis diagregasi ke dalam tampilan material saat data diimpor, sehingga tampilan material berisi data yang sama dengan tabel sumber.
Saat menanyakan data, Anda tidak perlu menentukan tampilan material. StarRocks memilih tampilan material yang optimal, mempercepat kueri.
Sintaks SQL standar
StarRocks mendukung sintaks SQL standar, termasuk sintaks pada agregasi, operasi JOIN, pengurutan data, fungsi jendela, dan fungsi kustom.
StarRocks juga mendukung 22 pernyataan SQL dari TPC-H dan 99 pernyataan SQL dari TPC-DS.
StarRocks kompatibel dengan protokol MySQL. Anda dapat menggunakan berbagai klien dan alat BI untuk mengakses StarRocks dan menganalisis data dengan seret dan lepas.
Komputasi batch dan aliran terpadu
StarRocks mendukung impor data secara real-time atau dalam batch.
Anda dapat mengimpor data dari sumber data Kafka, Hadoop Distributed File System (HDFS), dan file lokal.
Data yang diimpor dapat berada dalam format seperti ORC, Parquet, dan CSV.
StarRocks memungkinkan Anda mengimpor data dari sumber data Kafka secara real-time tanpa duplikasi atau kehilangan data.
StarRocks memungkinkan Anda mengimpor data lokal atau jarak jauh dalam batch menggunakan HDFS.
Ketersediaan tinggi dan skalabilitas
StarRocks menyimpan metadata dan data dalam beberapa replika serta menyediakan cadangan panas di beberapa instance, mencegah titik kegagalan tunggal (SPOF).
StarRocks memiliki kemampuan pemulihan elastis otomatis, memastikan stabilitas kluster saat terjadi kegagalan node, pemutusan koneksi, dan pengecualian.
StarRocks menggunakan arsitektur terdistribusi untuk meningkatkan kapasitas penyimpanan dan kemampuan komputasi secara horizontal. Setiap kluster dapat berisi ratusan node untuk mendukung manajemen data hingga 10 PB.
Layanan tidak terganggu selama penyesuaian ukuran. Anda dapat menanyakan data seperti biasa.
StarRocks mendukung perubahan panas pada skema tabel. Anda dapat mengeksekusi pernyataan SQL untuk memodifikasi skema tabel secara dinamis, seperti menambahkan atau menghapus kolom atau membuat tampilan material. Tabel yang skemanya sedang dimodifikasi dapat diimpor atau ditanyakan seperti biasa.
Skenario
StarRocks dapat memenuhi berbagai kebutuhan analisis data perusahaan dalam skenario berikut:
Analisis Multi-dimensi OLAP
Analisis perilaku pengguna
Analisis persona pengguna, analisis tag, dan identifikasi pengguna target
Pelaporan metrik bisnis berdimensi tinggi
Platform pelaporan mandiri
Identifikasi dan analisis masalah bisnis
Analisis bisnis lintas tema
Pelaporan keuangan
Analisis pemantauan sistem
Gudang Data Waktu Nyata
Analisis data untuk aktivitas promosi e-commerce
Analisis hasil untuk siaran langsung di industri pendidikan
Analisis waybill dalam logistik
Analisis kinerja dan perhitungan metrik di industri keuangan
Analisis iklan
Manajemen kokpit
Manajemen kinerja aplikasi (APM)
Kueri Konkurensi Tinggi
Analisis laporan untuk pengiklan
Analisis personel terkait saluran penjualan di ritel
Pelaporan berbasis klien di industri perangkat lunak sebagai layanan (SaaS)
Analisis multi-halaman pada dasbor
Analisis Terpadu
Dalam beberapa skenario, sistem all-in-one diperlukan untuk menyediakan berbagai fitur seperti analisis multi-dimensi, kueri konkurensi tinggi, pre-komputasi, analisis waktu nyata, dan kueri ad hoc. Sistem ini diharapkan dapat mengurangi kompleksitas arsitektur, persyaratan pada tumpukan teknologi, dan biaya dalam pengembangan dan O&M.