ベクトル検索アルゴリズム | メリット | デメリット | シナリオ |
量子化クラスタリング | CPU 使用率とメモリ使用量が低い。 |
| 数億件のデータレコードを処理する必要があり、高精度が求められるシナリオに適しています。または、低いクエリレイテンシが要求されない場合。 |
HNSW | 高い再現率と高いクエリ速度。 | CPU 使用率とメモリ使用量が高い。 | 数千万件のデータレコードを処理する必要があり、高精度と低いクエリレイテンシが要求されるシナリオに適しています。 |
リニア | 再現率 100% 。 |
| 数万件のデータレコードを処理する必要のあるシナリオに適しています。 |
量子化グラフ | 低い CPU 使用率、低いメモリ使用量、高いクエリ速度、および高いクエリパフォーマンス。 | HNSW よりも低い再現率。 | 数十億件のデータレコードを処理する必要があり、高いクエリ速度とパフォーマンスが要求されるが、高精度は要求されないシナリオに適しています。 |
CagraHnsw | GPU を使用してインデックスを構築し、CPU よりも 10 倍以上高速です。 | HNSW よりも取得率がわずかに低い。 | 大規模なデータセットの定期的なインデックス更新が必要なシナリオに適しています。 |
CAGRA | GPU ベースのアルゴリズムで、CPU ベースのアルゴリズムよりも数倍から 10 倍高いパフォーマンスを発揮します。 | GPU コストが高い。秒間クエリ数 (QPS) が低いシナリオでは、コスト効率が低くなります。 | 高い QPS と低いレイテンシが要求されるシナリオに適しています。 |
DiskANN 説明 DiskANN アルゴリズムは、データノードの仕様ファミリーが SSD の場合にのみサポートされます。 | インデックスをディスクに保存できるため、メモリ使用量が少なくなります。 | クエリレイテンシが高く、スループットが低い。 | データ量が多く (数百億レコード)、メモリが限られており、レイテンシへの影響が少ないシナリオに適しています。 |