DashVector よくある質問ベクター検索パーティションコレクション SDK - DashVector

1. ドキュメント操作時に `Partition` パラメーターを指定しない場合、どうなりますか?

すべてのコレクションには、自動的に作成される削除不可の default パーティションが存在します。パーティションを指定せずにドキュメント操作を実行すると、default が使用されます。たとえば、パーティションを指定せずにドキュメントを取得すると、default のみが検索され、他のパーティションは検索されません。

2. ドキュメントの挿入、ドキュメントの更新、ドキュメントの挿入または更新の各操作にはどのような違いがありますか?

ドキュメントの挿入：ドキュメント ID がすでに存在する場合、操作は失敗します。既存のドキュメントは上書きされません。
ドキュメントの更新：既存のドキュメントを上書きします。ドキュメント ID が存在しない場合、操作は失敗します。
ドキュメントの挿入または更新： ID が存在する場合はドキュメントを更新し、存在しない場合は新しいドキュメントを挿入します。

3. コレクションをクリアするにはどうすればよいですか?

コレクションを直接クリアすることはできません。代わりに、コレクションを削除してから新しいコレクションを作成してください。

4. ドキュメント操作で非同期機能を使用するにはどうすればよいですか?

ドキュメントの挿入、ドキュメントの更新、ドキュメントの挿入または更新、ドキュメントの取得、ドキュメントの削除、ドキュメントの照会は、すべて非同期実行をサポートしています。async_req=True を設定してください。

# 1,000 回非同期で書き込み。次元 = 20000、バッチサイズ = 8。
batch_size = 8
loop = 1000
start = time.time()

async_results = [
    collection.insert(
        [(j + i * batch_size, np.random.rand(20000)) for j in range(batch_size)],
        async_req=True
    ) for i in range(loop)
]

# すべての書き込み操作が完了するまで待機します。
print([async_result.get() for async_result in async_results])

print(f"async insert {loop} times with batch-size = {batch_size}, cost = {time.time() - start}")

# 出力：
# async insert 1000 times with batch-size = 8, cost = 31.13356590270996

# 比較のため、同期書き込み (コード省略)
# sync insert 1000 times with batch-size = 8, cost = 408.63447427749634

重要

非同期操作は、制約と制限に記載されている制限をトリガーする可能性があります。このような状況に適切に対処してください。

5. ドキュメント ID は、コレクションレベルで一意ですか、それともパーティションレベルで一意ですか?

ドキュメント ID は、パーティションレベルで一意です。同じコレクション内の異なるパーティションには、同じ ID を持つドキュメントが存在できます。

6. 挿入したベクターデータの精度が低下するのはなぜですか?

DashVector は、ベクターを単精度浮動小数点数 (FP32/float32) として保存します。精度の範囲は次のとおりです：

この範囲外の入力データは、最も近い FP32 値に丸められるため、精度が低下します。

7. ドキュメントの照会時に、複数のパーティションを指定できますか?

いいえ。各ドキュメントの照会呼び出しでは、1 つのパーティションのみを指定できます。複数のパーティションをクエリするには、操作を複数回呼び出す必要があります。

8. `pip install dashvector` コマンドが非常に遅いです。高速化するにはどうすればよいですか?

ダウンロードが遅い原因は、通常、デフォルトのパッケージインデックスへのレイテンシが高いことです。ミラーを使用してインストールを高速化できます。

たとえば、Alibaba Cloud ミラーを使用するには、次の手順に従います：

ターミナル (Linux または macOS の場合) またはコマンドプロンプト/PowerShell (Windows の場合) を開きます。
-i または --index-url パラメーターを使用して、ミラーを指定します：
```
pip3 install dashvector -i https://mirrors.aliyun.com/pypi/simple/
```

9. SDK を使用してクラスターを作成できますか?

いいえ。クラスターは、マネジメントコンソールでのみ作成できます。「クラスターの作成」をご参照ください。

10. 有料クラスターで作成できるコレクションの数に制限はありますか?

はい。有料クラスターは、最大 32 個のコレクションをサポートします。パーティションの制限は、クラスターの仕様によって異なり、コレクション数とは独立しています。詳細については、「制約と制限」をご参照ください。

11. ドキュメントの取得時に、フィルター条件はあいまいテキスト検索をサポートしていますか?

いいえ。AISearch では、フィルターはテキストの前方一致のみをサポートしています。詳細については、「フィルター検索」をご参照ください。

12. DashVector から次のエラーが返されます： "Query qps exceeds limit 0 for collection ××××"

このエラーは、無料クラスターでの HTTP 検索リクエストで誤った collectionName が指定された場合、または無料クラスターの QPS 制限を超えた場合に発生します。有料クラスターには、QPS や容量に関するハード制限はありません。詳細については、「制約と制限」をご参照ください。

13. SDK を使用して DashVector を呼び出すと、次のエラーが返されます： DashVectorSDK RPCHandler endpoint({××××}) is invalid and cannot contain protocol header

指定されたエンドポイントが無効です。エンドポイントパラメーターに {} が含まれていないことを確認してください。

1. ドキュメント操作時に Partition パラメーターを指定しない場合、どうなりますか?