Hologres mendukung komputasi vektor, memungkinkan Anda merepresentasikan fitur dari data tidak terstruktur menggunakan data vektor dan melakukan kueri cepat melalui pengambilan vektor berkinerja tinggi. Topik ini menjelaskan fitur dan manfaat komputasi vektor di Hologres.
Informasi latar belakang
Hologres adalah mesin gudang data real-time satu atap yang kompatibel dengan protokol PostgreSQL. Sebelum V4.0, Hologres mengintegrasikan Proxima, pustaka pencarian tetangga terdekat vektor yang dikembangkan oleh Akademi DAMO Alibaba. Integrasi ini mendukung indeks Graph serta menyediakan layanan komputasi vektor stabil dan berkinerja tinggi.
Hologres V4.0 secara komprehensif meningkatkan kemampuan pengambilan vektor dengan mendukung algoritma pengambilan vektor HGraph dan memberikan peningkatan berikut:
Dukungan untuk indeks hibrida yang menggunakan memori dan disk, memungkinkan penyesuaian kebijakan kueri sesuai dengan persyaratan performa dan presisi.
Kemampuan menulis dan mengambil data vektor dalam skala ratusan miliar.
Peningkatan performa algoritma pengambilan vektor HGraph pada arsitektur Pemrosesan Paralel Masif (MPP), memberikan peningkatan signifikan baik dalam performa baca maupun tulis.
Manfaat komputasi vektor di Hologres meliputi:
Fitur komputasi vektor yang kuat:
Ketepatan waktu: Mendukung penulisan dan pembaruan data vektor secara real-time, sehingga data langsung tersedia untuk kueri setelah ditulis.
Kemampuan kueri: Dukungan untuk kueri yang menggabungkan pengambilan vektor dengan kondisi filter kompleks, memungkinkan penggunaan indeks vektor dan indeks terstruktur lainnya secara bersamaan.
Kinerja tinggi: Dukungan untuk penulisan data vektor secara real-time dengan jumlah permintaan per detik (QPS) yang tinggi, pembuatan indeks efisien, serta pengambilan vektor ber-QPS tinggi dengan latensi rendah.
Biaya rendah: Mengurangi biaya penyimpanan vektor dengan menekan data indeks vektor menggunakan tipe data Float2.
Integrasi mulus dengan kemampuan gudang data real-time:
Kemudahan penggunaan: Anda dapat membuat dan menggunakan Proxima dengan sintaks SQL standar.
Transaksi: Dukungan untuk transaksi Data Definition Language (DDL) dan transaksi Data Manipulation Language (DML) campuran.
Binary logging: Dukungan untuk binary logging, memungkinkan langganan event perubahan untuk data vektor.
Beragam skenario: Dukungan untuk tiga format penyimpanan tabel—penyimpanan baris, penyimpanan kolom, dan kombinasi penyimpanan baris dan kolom—memungkinkan analisis OLAP berkinerja tinggi, kueri titik nilai-kunci, dan kueri vektor secara bersamaan pada satu tabel vektor.
Integrasi mulus dengan fitur ketersediaan tinggi tingkat perusahaan:
Instans kelompok komputasi: Dukungan untuk arsitektur multi-kelompok komputasi dengan penyimpanan bersama, memberikan fleksibilitas untuk pemisahan baca/tulis, pemisahan baca-baca, dan pemisahan tulis-tulis. Untuk informasi lebih lanjut, lihat Panduan Cepat untuk instans kelompok komputasi.
Elastisitas sumber daya yang fleksibel: Untuk informasi lebih lanjut, lihat Praktik Terbaik untuk Manajemen Sumber Daya Komputasi.
Integrasi mulus dengan ekosistem produk:
Integrasi mulus dengan MaxCompute: Anda dapat menggunakan tabel eksternal untuk mempercepat kueri pada data vektor MaxCompute dan melakukan penulisan batch berkinerja tinggi dari data vektor dari MaxCompute.
Integrasi asli dengan Flink: Hologres mendukung penulisan dan pembaruan data vektor dalam jumlah besar secara real-time, serta berbagai skenario yang melibatkan tabel sumber, tabel sink, dan tabel dimensi, termasuk operasi kompleks seperti penggabungan beberapa aliran data vektor.
Integrasi mendalam dengan DataWorks: Hologres mendukung integrasi data vektor dari banyak sumber data serta fitur tingkat perusahaan seperti aset data, alur data, dan Studio Layanan Data.
Pengenalan komputasi vektor
Istilah
Vektor fitur: Representasi aljabar dari entitas atau aplikasi yang mengabstraksi hubungan antara entitas sebagai jarak dalam ruang vektor, di mana jarak menunjukkan tingkat kesamaan. Fitur yang membentuk vektor mencakup tinggi, usia, jenis kelamin, dan wilayah.
Pengambilan vektor: Metode pencarian dan pencocokan cepat dalam satu set vektor fitur, sering kali melibatkan masalah seperti K-Nearest Neighbor (KNN) dan Radius Nearest Neighbor (RNN).
K-Nearest Neighbor (KNN): Menemukan K titik terdekat ke titik kueri.
Radius Nearest Neighbor (RNN): Menemukan semua titik dalam radius tertentu dari titik kueri.
Perbandingan konsep komputasi vektor
Konsep Proxima | Konsep di Hologres |
Vektor fitur | Tipe data array. Hanya array dengan panjang tetap yang didukung. |
Indeks vektor | Jenis indeks khusus. Saat ini, hanya indeks Graph untuk KNN dan RNN yang didukung. |
Perhitungan jarak |
|
Kueri KNN | order by distance(x, [x1, x2]) asc limit k |
Kueri RNN | where distance(x, [x1,x2]) < r Catatan Kueri RNN saat ini tidak mendukung indeks Proxima. |
Referensi
Untuk informasi lebih lanjut tentang cara menggunakan komputasi vektor di Hologres, lihat Panduan Pengguna Indeks HGraph.
Untuk mempelajari persyaratan memori untuk instans Hologres guna pengambilan vektor berkinerja tinggi, lihat Tipe Instans yang Direkomendasikan untuk Komputasi Vektor.