全部產品
Search
文件中心

AnalyticDB:非結構化分析

更新時間:Feb 05, 2024

AnalyticDB PostgreSQL版的向量分析旨在協助您實現非結構化資料的近似檢索和分析,具備豐富功能和優異效能。

功能說明

向量分析實現原理是通過AI演算法提取非結構化資料的特徵,然後利用特徵向量唯一標識非結構化資料,向量間的距離用于衡量非結構化資料之間的相似性。AnalyticDB PostgreSQL版向量檢索分析基於MPP查詢架構構建,協助使用者實現基於SQL介面進行非結構化資料檢索,並支援同結構化資料的關聯分析。

典型應用情境

通過AnalyticDB PostgreSQL版向量分析,您可以非常容易地搭建各種智能化應用。

  • 以圖搜圖,即通過圖片檢索圖片。

  • 聲紋匹配,通過音頻檢索音頻。

  • 基於語義的文本檢索和推薦,通過文本檢索近似文本。

  • 檔案去重,通過檔案指紋去除重複檔案。

  • 商品圖片分析,在大量圖片中分析哪些圖片包含了同一個商品。

向量分析作為AnalyticDB PostgreSQL版向量分析的進階特性目前已經服務阿里巴巴內外部多項業務,包括阿里巴巴資料中台,阿里巴巴電商新零售業務,阿里雲城市大腦。

典型架構

圖 1. 基於AnalyticDB PostgreSQL版實現非結構化資料向量分析樣本樣本

  • Web App把文本,圖片或者視頻等非結構化資料(後續簡稱非結構化資料)通過特徵提取服務提取特徵向量,然後再把特徵向量寫入雲原生資料倉儲PostgreSQL版向量分析的向量表。

  • Web App檢索的時候首先把非結構化資料通過特徵提取服務介面提取出向量,然後調用雲原生資料倉儲PostgreSQL版向量分析的查詢分析介面做查詢。

優勢

雲原生資料倉儲AnalyticDB PostgreSQL版的向量分析特性針對非結構化資料檢索分析,與普通的檢索系統有較大的差異,主要體現在下面的幾點:

  • 結構化和非結構化混合分析

    例如,可以檢索與輸入圖片中的連衣裙相似性最高、價格在100元到200元之間且上架時間在最近1個月以內的產品。

  • 支援資料即時更新

    傳統的向量分析系統中資料只能按照T+1更新,不支援資料即時寫入。雲原生資料倉儲PostgreSQL版向量分析支援資料即時更新和查詢。

  • 支援向量分析碰撞

    AnalyticDB PostgreSQL版向量分析支援KNN-Join,即比較一堆向量與另外一堆向量的相似性,類似於spark中的KNN-Join操作,這種情境計算量巨大,AnalyticDB PostgreSQL版針對該情境做了大量最佳化。

    典型的應用情境有商品去重,計算新加入的商品與歷史商品庫中有哪些是相似的。人臉聚類,計算一段時間內的人臉庫中,哪些人臉是同一個人。

  • 易用性

    AnalyticDB PostgreSQL版向量分析申請即可使用,支援標準SQL,簡化開發流程。

  • 低成本

    向量資料佔用空間非常大,1條512維float向量,佔用2k儲存空間,AnalyticDB PostgreSQL版向量支援FP32資料壓縮成FP16,降低一半儲存成本。