全部產品
Search
文件中心

MaxCompute:雜湊分區全鏈路測試

更新時間:Feb 28, 2024

雜湊分區用於測試Proxima CE端到端功能的正確性,本文為您介紹雜湊分區全鏈路測試的結論及測試過程。

測試結論

Proxima CE雜湊分區啟動並執行召回結果與recall工具結果基本一致,正確性測試符合預期。

測試過程

  1. 方法設計。
    1. 資料準備:隨機生產不同類型(包括FLOAT、BINARY和INT8)的資料集,對於Proxima CE需要將資料集轉換成對應的ODPS表,對於C++ baseline則需要通過proxima核心內建的Bench效能測試工具的方法進行處理。
      說明 C++ baseline:表示將通過proxima核心測出的效能資料作為測試基準,proxima核心是用C++語言編寫的。
    2. 演算法對比:對每個資料集,通過執行不同演算法(Graph、HC、Linear),得到Proxima CE結果和C++ baseline的結果,對比各自的召回率,此處設定的TopK為100。Proxima CE的recall是通過從query表中採樣100條query資料做的召回,主要是與Linear方式進行對比,與proxima2 recall工具方法原則一致。
  2. 測試準備。
    • 資料準備。
      按類型生產隨機資料集,資料集的基本資料如下表,其中每個資料集的query從doc資料中隨機抽取100條。
      資料類型維數數量數值範圍
      FLOAT12810W(0,1)
      INT812810W(-128,127)
      BINARY51210W0/1
    • 參數設定。
      檢索方式參數
      graph
      • proxima.hnsw.searcher.ef: 400
      • proxima.hnsw.builder.efconstruction: 400
      • proxima.hnsw.builder.max_neighbor_count: 100
      hc
      • proxima.hc.builder.centroids_count: 2000
      • proxima.hc.searcher.max_scan_count: 80000
      ssg
      • proxima.hnsw.searcher.ef: 400
      • proxima.hnsw.builder.efconstruction: 400
      • proxima.hnsw.builder.max_neighbor_count: 100
      gc
      • proxima.gc.builder.centroid_count: 1000
      • proxima.gc.searcher.scan_ratio: 0.8
      qc
      • proxima.qc.builder.centroid_count: 1000
      • proxima.qc.searcher.scan_ratio: 0.8
      linear-
  3. 運行結果。
    • 資料類型:FLOAT,距離計算方法:SquaredEuclidean
      檢索方式ProximaCErecall 工具
      graph89.03%88.62%
      hc98.91%98.14%
      ssg96.00%95.76%
      gc97.87%97.64%
      qc97.70%97.77%
      linear100%100%
    • 資料類型:INT8,距離計算方法:SquaredEuclidean
      檢索方式ProximaCErecall 工具
      graph89.89%89.93%
      hc98.27%97.69%
      ssg95.58%95.75%
      gc97.72%97.36%
      qc97.68%97.71%
      linear100%100%
    • 資料類型:BINARY,距離計算方法:Hamming
      檢索方式ProximaCErecall 工具
      graph85.33%88.09%
      hc91.45%95.27%
      ssg75.89%77.83%
      gc90.01%93.99%
      qc90.51%93.78%
      linear100%100%
  4. 結果分析。

    Proxima CE在各演算法及資料類型上的召回情況與recall工具基本對齊。