Hologres支援向量計算,可以使用向量資料表示非結構化資料的特徵,通過高效能向量檢索實現對非結構化資料的快速查詢。本文為您介紹Hologres中向量計算的特點及優勢。
背景資訊
Hologres是相容PostgreSQL協議的一站式即時數倉引擎,V4.0版本前,通過整合阿里達摩院自研向量近鄰搜尋庫Proxima,支援Graph索引,提供穩定、高效能的向量計算服務。
Hologres V4.0版本全面升級向量檢索能力,支援HGraph向量檢索演算法,有如下能力增強:
支援記憶體+磁碟混合索引,可針對效能、精度的不同需求情境定製查詢策略。
可支援千億級超大規模向量資料寫入與召回。
HGraph向量檢索演算法對MPP架構上表現更優,讀寫效能均有顯著提升。
Hologres在向量計算方面的優勢如下:
向量計算功能強大:
時效性:支援向量資料即時寫入、即時更新,資料寫入即可查。
查詢能力:支援向量檢索與其他複雜過濾條件融合查詢,支援同時使用向量索引和其他結構化索引。
高效能:支援超高QPS向量資料即時寫入,支援高效索引構建,支援高QPS、低延時向量檢索。
低成本:通過Float2類型進行向量索引資料壓縮,降低向量儲存成本。
即時數倉能力與向量計算有機結合:
易用性:支援通過標準SQL文法建立並使用Proxima,簡單易用。
事務性:支援多條DDL事務,支援多條DML混合事務。
Binlog:支援Binlog,可以實現對向量資料變更事件的訂閱。
多情境:支援行存、列存、行列共存三種表格儲存體格式,可以支援對一張向量表同時進行高效能OLAP分析、Key/Value點查以及向量查詢。
企業級高可用能力與向量計算有機結合:
支援計算群組型執行個體:支援共用儲存的多計算群組架構,靈活實現讀寫分離、讀讀分離、寫寫分離,詳情請參見計算群組執行個體快速入門。
支援靈活的資源彈效能力,詳情請參見計算資源管理最佳實務。
產品生態與向量計算有機結合:
無縫對接MaxCompute,支援通過外部表格加速查詢MaxCompute向量資料,支援MaxCompute向量資料高效能批量寫入。
原生整合Flink,支援海量向量資料即時寫入與更新,支援源表、結果表、維度資料表多種情境,支援向量資料多流合并等複雜操作。
深度整合DataWorks,支援海量資料來源向量Data Integration,支援資料資產、資料血緣、資料服務等企業級能力。
向量計算簡介
名詞解釋
特徵向量:向量是一種將實體和應用代數化的一種表示,其將實體間的關係抽象成向量空間中的距離,而距離的遠近代表著形似程度。例如:身高、年齡、性別、地區。
向量檢索:在特徵向量資料集合中進行快速搜尋和匹配的方法,常涉及到的問題有KNN和RNN。
KNN(K-Nearest Neighbor):尋找離查詢點最近的K個點。
RNN(Radius Nearest Neighbor):尋找查詢點某半徑範圍內的所有點。
向量計算概念對比
Proxima概念 | Hologres中的概念 |
特徵向量 | 數群組類型Array,僅支援固定長度數組 |
向量索引 | 一種特殊類型的Index,當前僅支援KNN/RNN的Graph索引 |
距離計算 |
|
KNN查詢 | order by distance(x, [x1, x2]) asc limit k |
RNN查詢 | where distance(x, [x1,x2]) < r 說明 當前RNN查詢不支援Proxima索引。 |
相關文檔
向量計算在Hologres中的使用方法請參見HGraph索引使用指南。
若您想瞭解向量的高效能檢索對Hologres執行個體記憶體的規格要求,請參見向量計算執行個體規格推薦。