AnalyticDB PostgreSQL版的向量分析旨在協助您實現非結構化資料的近似檢索和分析,具備豐富功能和優異效能。
功能說明
向量分析實現原理是通過AI演算法提取非結構化資料的特徵,然後利用特徵向量唯一標識非結構化資料,向量間的距離用于衡量非結構化資料之間的相似性。AnalyticDB PostgreSQL版向量檢索分析基於MPP查詢架構構建,協助使用者實現基於SQL介面進行非結構化資料檢索,並支援同結構化資料的關聯分析。
典型應用情境
通過AnalyticDB PostgreSQL版向量分析,您可以非常容易地搭建各種智能化應用。
以圖搜圖,即通過圖片檢索圖片。
聲紋匹配,通過音頻檢索音頻。
基於語義的文本檢索和推薦,通過文本檢索近似文本。
檔案去重,通過檔案指紋去除重複檔案。
商品圖片分析,在大量圖片中分析哪些圖片包含了同一個商品。
向量分析作為AnalyticDB PostgreSQL版向量分析的進階特性目前已經服務阿里巴巴內外部多項業務,包括阿里巴巴資料中台,阿里巴巴電商新零售業務,阿里雲城市大腦。
典型架構
圖 1. 基於AnalyticDB PostgreSQL版實現非結構化資料向量分析樣本
Web App把文本,圖片或者視頻等非結構化資料(後續簡稱非結構化資料)通過特徵提取服務提取特徵向量,然後再把特徵向量寫入雲原生資料倉儲PostgreSQL版向量分析的向量表。
Web App檢索的時候首先把非結構化資料通過特徵提取服務介面提取出向量,然後調用雲原生資料倉儲PostgreSQL版向量分析的查詢分析介面做查詢。
優勢
雲原生資料倉儲AnalyticDB PostgreSQL版的向量分析特性針對非結構化資料檢索分析,與普通的檢索系統有較大的差異,主要體現在下面的幾點:
結構化和非結構化混合分析
例如,可以檢索與輸入圖片中的連衣裙相似性最高、價格在100元到200元之間且上架時間在最近1個月以內的產品。
支援資料即時更新
傳統的向量分析系統中資料只能按照T+1更新,不支援資料即時寫入。雲原生資料倉儲PostgreSQL版向量分析支援資料即時更新和查詢。
支援向量分析碰撞
AnalyticDB PostgreSQL版向量分析支援KNN-Join,即比較一堆向量與另外一堆向量的相似性,類似於spark中的KNN-Join操作,這種情境計算量巨大,AnalyticDB PostgreSQL版針對該情境做了大量最佳化。
典型的應用情境有商品去重,計算新加入的商品與歷史商品庫中有哪些是相似的。人臉聚類,計算一段時間內的人臉庫中,哪些人臉是同一個人。
易用性
AnalyticDB PostgreSQL版向量分析申請即可使用,支援標準SQL,簡化開發流程。
低成本
向量資料佔用空間非常大,1條512維float向量,佔用2k儲存空間,AnalyticDB PostgreSQL版向量支援FP32資料壓縮成FP16,降低一半儲存成本。