DISKANN是一種基於磁碟的近似最近鄰搜尋技術,專為處理超大規模資料集而設計。它採用Vamana圖演算法,能夠在有限記憶體條件下,利用磁碟儲存資料,同時保持高效的向量索引與檢索。
DiskANN索引build參數
參數值 | 類型 | 說明 |
proxima.diskann.builder.pq_dimension_scale | Int | pq量化的比例,pq的維度=向量維度/pq_dimension_scale。預設為8。 |
proxima.diskann.builder.max_degree | Int | diskann圖中節點的最大出邊數量,數值越大,圖越準確,但構圖時間將增大。 |
proxima.diskann.builder.list_size | Int | diskann圖構建過程中選則邊的候選集大小,數值越大,圖越準確,但構圖時間將增大。 |
proxima.diskann.builder.thread_count | Int | 構建索引線程數。 |
DiskANN索引search參數
參數值 | 類型 | 說明 |
proxima.diskann.searcher.list_size | Int | 結果候選集大小,數值越大,召回率越高,查詢耗時隨之變大。 |
proxima.diskann.searcher.io_limit | Int | 單次查詢磁碟io限制,最大會進行io_limit次讀盤操作。主要影響vamana圖遊走次數。數值越大召回率越高,io次數越多,查詢耗時隨之變大。 |
proxima.diskann.searcher.beam_search_width | Int | io操作並行數量。 |