ベクトル検索アルゴリズム比較の概要 - OpenSearch

ベクトル検索アルゴリズム	メリット	デメリット	シナリオ
量子化クラスタリング	CPU 使用率とメモリ使用量が低い。	HNSW よりも低い再現率。 HNSW よりも低いクエリ速度。	数億件のデータレコードを処理する必要があり、高精度が求められるシナリオに適しています。または、低いクエリレイテンシが要求されない場合。
HNSW	高い再現率と高いクエリ速度。	CPU 使用率とメモリ使用量が高い。	数千万件のデータレコードを処理する必要があり、高精度と低いクエリレイテンシが要求されるシナリオに適しています。
リニア	再現率 100% 。	低いクエリ速度。量子化クラスタリングアルゴリズムと HNSW アルゴリズムよりも高い CPU 使用率とメモリ使用量。	数万件のデータレコードを処理する必要のあるシナリオに適しています。
量子化グラフ	低い CPU 使用率、低いメモリ使用量、高いクエリ速度、および高いクエリパフォーマンス。	HNSW よりも低い再現率。	数十億件のデータレコードを処理する必要があり、高いクエリ速度とパフォーマンスが要求されるが、高精度は要求されないシナリオに適しています。
CagraHnsw	GPU を使用してインデックスを構築し、CPU よりも 10 倍以上高速です。	HNSW よりも取得率がわずかに低い。	大規模なデータセットの定期的なインデックス更新が必要なシナリオに適しています。
CAGRA	GPU ベースのアルゴリズムで、CPU ベースのアルゴリズムよりも数倍から 10 倍高いパフォーマンスを発揮します。	GPU コストが高い。秒間クエリ数 (QPS) が低いシナリオでは、コスト効率が低くなります。	高い QPS と低いレイテンシが要求されるシナリオに適しています。
DiskANN 説明 DiskANN アルゴリズムは、データノードの仕様ファミリーが SSD の場合にのみサポートされます。	インデックスをディスクに保存できるため、メモリ使用量が少なくなります。	クエリレイテンシが高く、スループットが低い。	データ量が多く (数百億レコード)、メモリが限られており、レイテンシへの影響が少ないシナリオに適しています。