PyMilvus による Milvus でのベクトル検索の実行 - Milvus

ベクトル検索は、効率的な類似検索のための主要なテクノロジーです。このトピックでは、詳細な例を使用してベクトル検索を迅速に実行する方法を示します。

前提条件

ローカルクライアントに PyMilvus ライブラリをインストールし、最新バージョンに更新していること。
PyMilvus ライブラリをインストールしていない場合、または更新する必要がある場合は、次のコマンドを実行します。
```
pip install --upgrade pymilvus
```
Milvus インスタンスを作成していること。詳細については、「Milvus インスタンスの作成」をご参照ください。

考慮事項

Vector Retrieval Service for Milvus (Milvus) は、内部ネットワークおよびインターネット経由での接続をサポートしています。Milvus インスタンスに接続する前に、クライアントが必要なネットワークアクセス権限を持っていることを確認してください。詳細については、「ネットワークアクセスの設定」をご参照ください。

手順

ステップ 1: Milvus インスタンスへの接続

次のコードを使用して Milvus インスタンスに接続します。

from pymilvus import MilvusClient

# Milvus クライアントを作成します。
client = MilvusClient(
    uri="http://c-xxxx.milvus.aliyuncs.com:19530",  # Milvus インスタンスのパブリックエンドポイント。
    token="<yourUsername>:<yourPassword>",  # Milvus インスタンスでの認証に使用するユーザー名とパスワード。
    db_name="default"  # ターゲットデータベース名。デフォルトは "default" です。
)

ステップ 2: コレクションの作成

次のコードを使用してコレクションを作成します。カスタムパラメーターの詳細については、「コレクションの管理」をご参照ください。

client.create_collection(
    collection_name="demo",  # コレクションの名前。
    dimension=5  # ベクターのディメンション。
)

このコードは、コレクション名とベクターのディメンションを設定します。また、次のデフォルト構成も適用されます。

プライマリキーフィールドの名前は id で、ベクターフィールドの名前は vector です。
metric_type プロパティは COSINE に設定されます。
プライマリキーフィールド id は、自動増分ではない整数です。
追加の $meta フィールドには、スキーマで定義されていないフィールドのデータがキーと値のペアとして格納されます。

ステップ 3: データの挿入

コレクションが作成されると、システムは自動的にコレクションとそのインデックスをメモリにロードします。次のコードを使用して、テストデータをコレクションに挿入します。

少量のデータを挿入する

このコードは、10 個の事前定義されたエンティティを挿入します。各エンティティには、固定のベクターと色のラベルがあります。

data=[{'id': 0, 'vector': [-0.493313706583155, -0.172001225836391, 0.16825615330139554, -0.0198911518739604, -0.9756816265213708], 'color': 'green_5760'}, {'id': 1, 'vector': [0.6695699219225086, 0.49952523907354496, -0.49870548178008534, 0.8824655547230731, -0.7182693622931615], 'color': 'blue_2330'}, {'id': 2, 'vector': [-0.6057771959702387, 0.9141473782193543, 0.32053983678483466, -0.32126010092015655, 0.725222856037071], 'color': 'grey_9673'}, {'id': 3, 'vector': [0.14082089434165868, 0.9924029949938447, 0.7943279666144052, -0.7898608705081103, -0.9941425813199956], 'color': 'white_2829'}, {'id': 4, 'vector': [-0.46180540826224026, 0.33216876051895783, 0.5786699695956004, 0.8891120357625131, 0.04872530176990697], 'color': 'pink_9061'}, {'id': 5, 'vector': [-0.6097452740606673, 0.35648319550551144, -0.5699789153006387, 0.15085357921088316, -0.8817226997144627], 'color': 'pink_8525'}, {'id': 6, 'vector': [0.7843522543512762, -0.7663837586858071, -0.8681839054724569, 0.6880645348647785, -0.5151293183261791], 'color': 'green_5016'}, {'id': 7, 'vector': [-0.9967116931989293, 0.5741923070732655, -0.019126124261334976, -0.34163875885482753, -0.8189843931354175], 'color': 'brown_7434'}, {'id': 8, 'vector': [0.7347243385915765, -0.7358853080124825, -0.23737428377511716, 0.06980552357261627, -0.30613964550461437], 'color': 'blue_5059'}, {'id': 9, 'vector': [-0.21187155428455862, -0.3288541717216129, -0.32564136453418824, -0.14054963599686743, 0.5491320339870627], 'color': 'yellow_9887'}]

res = client.insert(
    collection_name="demo",
    data=data
)

より多くのデータを挿入する

このコードは、リスト内包表記を使用して複数のエンティティを生成します。これらのエンティティのベクターと色のラベルはランダムに生成されます。

import random

colors = ["green", "blue", "yellow", "red", "black", "white", "purple", "pink", "orange", "brown", "grey"]
data = [ {
    "id": i, 
    "vector": [ random.uniform(-1, 1) for _ in range(5) ], 
    "color": f"{random.choice(colors)}_{str(random.randint(1000, 9999))}" 
} for i in range(1000) ]

res = client.insert(
    collection_name="demo",
    data=data[1:]
)

print(res)

ステップ 4: ベクトル検索の実行

重要

データの挿入は非同期プロセスです。データを挿入しても、検索インデックスはすぐには更新されません。最新のデータをクエリするには、検索を実行する前にインデックスが更新されるまで数秒待ってください。

単一ベクトル検索

クエリベクトルを指定することで、単一のベクトルに対して類似検索を実行できます。

query_vectors = [
[-0.8832567462711804, -0.2999882617491647, 0.9921295273224382, -0.272575369985379, -0.688914679645338]
]

res = client.search(
    collection_name="demo",     # クエリ対象のコレクション。
    data=query_vectors,                # クエリベクトル。
    limit=3,                           # 返すエンティティの数。
)

print(res)

バッチベクトル検索

クエリベクターのリストを提供することで、バッチ類似検索を実行できます。

query_vectors = [
[0.06586461994037252, 0.7693023529849932, 0.8199991781350795, -0.6988017611187176, 0.408383847889378],
[0.8988257992203861, 0.021911711196309414, 0.19086900086430836, 0.63590610476426, -0.6713237387993141]
]

res = client.search(
    collection_name="demo",
    data=query_vectors,
    limit=3,
)

print(res)

ステップ 5: フィルターを使用した検索

スキーマで定義されたフィールドを使用して、フィルター条件を設定できます。これにより、検索範囲が絞り込まれ、検索効率が向上します。

数値フィールドに基づくフィルター

次の例は、id フィールドの数値範囲に基づいてフィルター処理する方法を示しています。

query_vectors = [
[-0.30932351869632435, -0.7132856078639205, 0.6006201320181415, 0.40140510356426784, -0.21223937444001328]
]

res = client.search(
    collection_name="demo",
    data=query_vectors,
    filter="3 < id < 5",  # 範囲 (3, 5) 内の ID をフィルターします。
    limit=3
)

print(res)

メタデータフィールド ($meta) に基づくフィルター

次の例は、color プロパティが "green" で始まるレコードを検索する方法を示しています。この例では、color フィールドが出力に含まれることも指定しています。

query_vectors = [
[0.9636568288732006, -0.5900490884830603, 0.2504591754023724, 0.7120903924474389, 0.7620604497390009]
]

res = client.search(
    collection_name="demo",
    data=query_vectors,
    filter='$meta["color"] like "green%"',  # 'color' メタデータが "green" で始まるレコードをフィルターします。
    limit=3,
    output_fields=["color"]   # 出力で返すフィールドを指定します。
)

print(res)