全部產品
Search
文件中心

PolarDB:PGVector

更新時間:Jul 06, 2024

PGVector是一個高效的向量資料庫外掛程式,支援多種向量計算演算法和資料類型,同時還能夠高效儲存與查詢以向量表示的AI Embedding。本文檔將為您介紹PGVector的背景、原理、使用方法及其他相關資訊。

背景資訊

隨著資料科學和機器學習等技術的迅速發展,向量計算已經成為了巨量資料領域中最常見的計算任務之一。PolarDB PostgreSQL版(相容Oracle)作為一種廣泛使用的關係型資料庫,結合PGVector外掛程式後通過自訂的資料類型和儲存方法,使得高維向量計算變得更加高效快速。

說明

資料庫內部使用高維度(包括主流文本嵌入模型)儲存表示輸入輸出的情境,PGVector外掛程式最高支援16000維度

前提條件

PGVector代碼支援的版本:開源版本

注意事項

  • PX支援通過sort遍曆高維向量。

  • PX不支援索引查詢。

原理介紹

PGVector的索引演算法是IVFFLAT(同pase外掛程式的向量演算法)。IVFFLAT是一種基於倒排索引的近似最近鄰搜尋演算法,可以用於高效地查詢向量之間的相似性。它將向量空間分為若干個劃分地區,每個地區都包含一些向量,並建立倒排索引,用於快速地尋找與給定向量相似的向量。

IVFFLAT是IVFADC演算法的簡化版本,適合於召回精度要求高,但對查詢耗時要求不嚴格(100ms層級)的情境。相比其他演算法,IVFFlat演算法具有高召回率高精度、演算法和參數簡單、空間佔用小的優勢。

PGVector外掛程式的實現基於PolarDB PostgreSQL版(相容Oracle)的擴充機制,利用C語言編寫實現了多種向量計算演算法和資料類型。其中外掛程式演算法的具體流程如下:

  1. 高維空間中的點基於隱形的聚類屬性,按照kmeans等聚類演算法對向量進行聚類處理,使得每個類簇有一個中心點。

  2. 檢索向量時首先遍曆計算所有類簇的中心點,找到與目標向量最近的n個類簇中心。

  3. 遍曆計算n個類簇中心所在聚類中的所有元素,經過全域排序得到距離最近的k個向量。

使用指南

PGVector外掛程式可以順序及索引檢索高維向量,樣本列出了簡單使用方法。

關於索引和更多的參數方法介紹可以參考開原始碼的README模組。

樣本

  1. 建立外掛程式。

    CREATE EXTENSION vector;
  2. 建立表。

    CREATE TABLE t (val vector(3));
  3. 插入資料。

    INSERT INTO t (val) VALUES ('[0,0,0]'), ('[1,2,3]'), ('[1,1,1]'), (NULL);
  4. 建立向量索引。

    CREATE INDEX ON t USING ivfflat (val vector_ip_ops) WITH (lists = 1);
  5. 計算近似向量。

    SELECT * FROM t ORDER BY val <#> '[3,3,3]';

    返回結果如下:

       val
    ---------
     [1,2,3]
     [1,1,1]
     [0,0,0]
    (3 rows)
    說明
    • val vector_ip_ops表示需要建立索引的列名為val,並且使用PolarDB PostgreSQL版(相容Oracle)中提供的向量操作符vector_ip_ops來計算向量之間的相似性。該操作符支援向量之間的點積、餘弦相似性、歐幾裡得距離等計算方式。

    • WITH (lists = 1)表示使用的劃分地區數量為1,這意味著所有向量都將被分配到同一個地區中。在實際應用中,劃分地區數量需要根據資料規模和查詢效能進行調整。

相關參考

向量的embedding過程請參考中國內地和國際文本embedding模型輸出