全部产品
Search
文档中心

E-MapReduce:Druid (hanya tersedia untuk pengguna yang sudah ada)

更新时间:Jun 24, 2025

Apache Druid adalah penyimpanan data terdistribusi sumber terbuka berorientasi kolom yang digunakan untuk menanyakan dan menganalisis kumpulan data besar secara real-time. Apache Druid awalnya dikembangkan oleh Metamarkets dan disumbangkan ke Apache Software Foundation pada musim semi 2019.

Fitur dasar

Apache Druid memiliki fitur-fitur berikut:

  • Kueri OLAP sub-detik, termasuk penyaringan multi-dimensi, pengelompokan atribut ad-hoc, dan agregasi data cepat.

  • Konsumsi data real-time, pengumpulan, dan penanyaaan.

  • Kemampuan multi-penyewa yang efisien, memungkinkan ribuan pengguna melakukan pencarian online secara bersamaan.

  • Skalabilitas kuat, mendukung pemrosesan cepat data level-PB, peristiwa level-100 miliar, dan ribuan kueri bersamaan per detik.

  • Ketersediaan sangat tinggi dengan dukungan untuk pembaruan bergulir.

Skenario penggunaan

Analisis data real-time merupakan skenario penggunaan paling umum untuk Apache Druid dan mencakup berbagai bidang, termasuk:

  • Pemantauan indikator real-time.

  • Model rekomendasi.

  • Platform iklan.

  • Pencarian model.

Skenario ini melibatkan sejumlah besar data dengan persyaratan latensi rendah dalam penanyaaan data. Dalam pemantauan indikator real-time, masalah harus dideteksi saat terjadi agar peringatan dapat diberikan sesegera mungkin. Dalam model rekomendasi, data perilaku pengguna dikumpulkan secara real-time dan langsung dikirim ke sistem rekomendasi. Hanya dengan beberapa klik, sistem dapat mengidentifikasi maksud pencarian Anda dan merekomendasikan hasil yang lebih tepat di masa depan.

Arsitektur

Apache Druid memiliki desain arsitektur yang sangat baik dengan beberapa komponen yang bekerja sama untuk menyelesaikan serangkaian proses, seperti pengumpulan data, pengindeksan, penyimpanan, dan penanyaaan.

Komponen-komponen dalam lapisan kerja Druid (untuk pengindeksan dan penanyaaan data) meliputi:

  • Komponen real-time bertanggung jawab atas pengumpulan data real-time.

  • Pada fase broker, tugas-tugas kueri didistribusikan, dan hasilnya dikumpulkan serta dikembalikan kepada pengguna.

  • Node historis bertanggung jawab atas penyimpanan data historis setelah pengindeksan. Data disimpan dalam penyimpanan internal, yang bisa berupa lokal atau sistem file terdistribusi seperti HDFS.

  • Layanan pengindeksan terdiri dari dua komponen (tidak ditampilkan dalam gambar):

    • Komponen Overlord bertanggung jawab atas manajemen dan distribusi tugas pengindeksan.

    • Komponen MiddleManager bertanggung jawab atas pelaksanaan tugas pengindeksan.

Komponen-komponen dalam lapisan manajemen segmen Druid (file indeks Druid) meliputi:

  • Komponen ZooKeeper bertanggung jawab atas penyimpanan status kluster dan penemuan komponen, seperti informasi topologi kluster, pemilihan pemimpin Overlord, dan manajemen tugas pengindeksan.

  • Komponen Coordinator bertanggung jawab atas manajemen segmen, seperti pengunduhan, penghapusan, dan penyeimbangan segmen dengan node historis.

  • Komponen Metadata storage bertanggung jawab atas penyimpanan meta-informasi segmen dan mengelola semua jenis data persisten atau sementara dalam kluster, seperti informasi konfigurasi dan audit.

E-MapReduce Enhanced Druid

E-MapReduce Druid telah meningkat pesat berdasarkan Apache Druid, termasuk integrasi dengan E-MapReduce dan ekosistem Alibaba Cloud, dukungan pemantauan dan operasi yang mudah, serta antarmuka produk yang intuitif. Anda dapat langsung menggunakannya setelah pembelian tanpa memerlukan pemeliharaan operasi 24/7.

E-MapReduce Druid mendukung fitur-fitur berikut:

  • Menggunakan OSS sebagai penyimpanan internal.

  • Menggunakan file OSS sebagai sumber data untuk pengindeksan batch.

  • Mendukung pengindeksan data streaming dari Log Service dengan keandalan tinggi dan semantik exactly-once.

  • Menggunakan RDS untuk menyimpan metadata.

  • Mengintegrasikan dengan alat Superset.

  • Penyesuaian kapasitas mudah (penurunan kapasitas untuk node tugas).

  • Indikator pemantauan beragam dan aturan alarm.

  • Migrasi node buruk.

  • Mode keamanan tinggi.

  • HA.