PolarSearch - PolarDB

PolarSearch adalah mesin pengambilan dan analisis data terdistribusi berkinerja tinggi yang disediakan oleh PolarDB. Dikembangkan berdasarkan OpenSearch, PolarSearch kompatibel dengan ekosistem Elasticsearch dan OpenSearch. PolarSearch memungkinkan pengambilan teks penuh, pengambilan vektor, serta analisis cerdas data multimodal seperti dokumen teks, fitur citra, dan log dalam hitungan milidetik melalui API atau SDK. Anda tidak perlu secara manual menyinkronkan data dari PolarDB ke platform pengambilan data lainnya.

Catatan

Fitur ini dirilis secara bertahap. Untuk menggunakan fitur ini, ajukan tiket untuk mengaktifkannya.

Dengan PolarSearch, Anda dapat melakukan:

Pengambilan teks penuh

curl -X GET "http://<endpoint>:<port>/articles/_search" -H "Content-Type:application/json" -d '
{
  "query": {
    "match": {
      "content": "PolarSearch"
    }
  }
}'

Pengambilan vektor

curl -X GET "http://<endpoint>:<port>/my-vector-index/_search" -H "Content-Type:application/json" -d '
{
  "size": 2,
  "query": {
    "knn": {
      "vector_field": {
        "vector": [0.1, 0.5, -0.3, 0.8],
        "k": 2
      }
    }
  }
}'

Arsitektur teknis

PolarSearch memanfaatkan penyimpanan terdistribusi bersama dan arsitektur komputasi-penyimpanan terpisah berbasis cloud-native yang disediakan oleh PolarStore. Mengintegrasikan mesin pencarian cerdas yang dikembangkan sendiri dan kerangka kerja komputasi terdistribusi, PolarSearch kompatibel dengan protokol sintaks DSL Elasticsearch. PolarSearch dapat digunakan untuk penyimpanan, analisis, dan pengambilan real-time data heterogen petabyte. Ini membantu Anda dengan cepat membangun layanan pencarian data dengan konkurensi tinggi dan ketersediaan tinggi untuk membuka nilai data.

Manfaat

Efisiensi ditingkatkan: Menghilangkan kebutuhan untuk secara manual membangun pipa sinkronisasi data dari MySQL ke mesin pencari. Mengurangi waktu pemrosesan beban kerja pengambilan data dari menit menjadi milidetik dan mempersingkat siklus pengembangan hingga 50%.
Optimasi biaya: Menawarkan alternatif untuk arsitektur konvensional "database + file storage + compute engine", yang melibatkan banyak mesin dan sistem. Dengan memanfaatkan PFS, yang merupakan penyimpanan bersama terdistribusi multi-level, ini mengurangi TCO sebesar 40%.
Inovasi bisnis: Memanfaatkan penyimpanan dan penambangan data tidak terstruktur serta kemampuan pengambilan vektor AI untuk membangun infrastruktur AI seperti rekomendasi cerdas, basis pengetahuan RAG, dan basis memori agen.

Kasus penggunaan

Platform konten E-dagang dan layanan SaaS

Pencarian kabur, pencocokan semantik, dan rekomendasi personalisasi untuk judul produk dan halaman produk.
Analisis real-time kata kunci dan penambangan sentimen dalam komentar pengguna dan konten yang dihasilkan pengguna (UGC).

Basis pengetahuan RAG perusahaan dan manajemen dokumen

Pengindeksan dan pengambilan teks penuh untuk dokumen dalam berbagai format seperti PDF dan Word.
Penyimpanan vektor fitur citra untuk pencarian citra.

Basis memori agen dan manajemen data agen

Memori jangka pendek untuk elemen seperti konteks percakapan saat ini, informasi konteks sesi, dan variabel sementara.
Memori jangka panjang yang menyimpan data interaksi jangka panjang seperti preferensi pengguna, konten kueri historis, dan parameter LLM.

Analisis log dan pemantauan layanan

Pengambilan real-time, agregasi statistik, dan peringatan anomali untuk data log petabyte.
Analisis asosiasi dan laporan visual untuk bidang log multi-dimensi.

Internet of Things dan aliran data IoT real-time

Tulisan massal bersamaan dan pengambilan cepat data deret waktu dari perangkat IoT.
Agregasi dinamis dan penyaringan multi-kondisi aliran data sensor.

Fitur inti

Ketersediaan tinggi dan skalabilitas

Arsitektur terdistribusi memastikan penyeimbangan beban otomatis dan alih bencana mulus jika terjadi kegagalan node tunggal, mencapai ketersediaan layanan 99,99%.
Penyesuaian skala online didukung. Penyimpanan dan sumber daya komputasi diperluas sesuai kebutuhan untuk menangani ratusan juta data.

Mesin pencarian cerdas

Mendukung pembuatan indeks sekunder terbalik untuk data tabel utama InnoDB pada node utama, menawarkan visibilitas tingkat transaksi.
Mendukung kueri indeks teks penuh pada data tabel utama InnoDB untuk diidentifikasi oleh pengoptimal dan secara otomatis dirutekan ke node pencarian untuk pengambilan.
Mendukung indeks campuran multi-dimensi yang terdiri dari segmentasi teks, vektorisasi semantik, dan rentang numerik, yang meningkatkan kinerja kueri lebih dari 10 kali lipat.
Menyediakan model NLP bahasa Cina bawaan yang ditingkatkan dan mencapai fitur canggih termasuk ekspansi sinonim, koreksi pinyin, dan pengenalan maksud.

Fusi data multimodal

Mendukung penyimpanan terpadu dan pengambilan fusi multi-saluran untuk berbagai tipe data, termasuk indeks maju skalar, indeks terbalik teks penuh, dan indeks vektor.
Menawarkan penyimpanan, pengambilan, dan ekstensi penguraian konten untuk sejumlah besar data tidak terstruktur heterogen, termasuk citra dan dokumen.

Pengambilan real-time dan analisis agregasi

Data dapat diambil dalam beberapa ratus milidetik setelah ditulis. Operasi seperti penyaringan kondisi kompleks, statistik bucket, dan pengurutan Top K didukung.
Fungsi berbasis skenario bawaan disediakan untuk perhitungan jendela bergulir data deret waktu dan skenario identifikasi geofence.