このトピックでは、Proxima CEでタスクを実行するときに使用される必須パラメーターとオプションパラメーターについて説明します。
必須パラメーター
パラメーター | 説明 |
doc_table | MaxComputeテーブルであるdocテーブルの名前。 docテーブルを準備し、検索用の候補データセットとして使用する必要があります。 重要 テーブル名には、MaxComputeでは特殊文字と見なされるピリオド |
doc_table_partition | docテーブル内のパーティションの名前。 |
query_table | クエリテーブルの名前。MaxComputeテーブルです。 クエリテーブルを準備し、検索用のデータセットとして使用する必要があります。 重要 テーブル名には、MaxComputeでは特殊文字と見なされるピリオド |
query_table_partition | クエリテーブル内のパーティションの名前。 |
output_table | 検索結果の格納に使用される出力テーブルの名前。 出力テーブルは自動的に生成されます。 出力テーブルを作成する必要はありません。 テーブル名を指定するだけです。 |
output_table_partition | 出力テーブル内のパーティションの名前。 |
data_type | docテーブルとクエリテーブルのデータ型。 |
dimension | 特性ベクトルの次元。 |
オプションパラメーター
パラメーター | 説明 | デフォルト値 |
h (-help) | ヘルプ情報。 | デフォルト値なし |
topk | 検索される類似性結果の数。 | 200 |
pk_type | 入力テーブルの | String |
vector_separator | ベクトル区切り文字。 区切り文字として、チルダ (~) 以外の特殊文字を指定できます。 スペースがサポートされています。 スペースを区切り文字として使用する場合は、このパラメーターを | ~ |
binary_to_int | BINARY型のデータをINT32型に変換するかどうかを指定します。 このパラメーターは、BINARY型のデータに対してのみ有効です。 このパラメーターを指定した場合でも、 | false |
job_mode | ジョブモード。 有効な値:
| train: ビルド: シーク |
clean_build_volume | ビルドおよびシークプロセスの完了後にインデックスを削除するかどうかを指定します。 ビルドプロセスでインデックスが作成された後、インデックスはMaxComputeの外部ボリュームに書き込まれ、シークプロセスでロードされます。 シークプロセスが完了すると、インデックスは自動的に削除されます。 説明 このパラメーターをtrueに設定すると、タスクが失敗したときにインデックスも削除されます。 | true |
algo_model | インデックス作成アルゴリズム。 Proxima 2.xカーネルでは、
| hnsw |
builder_params | IndexBuilderモジュールに指定するパラメーター。 デフォルトでは、このパラメータは空のままです。 指定するパラメーターのインデックス型は、 | デフォルト値なし |
searcher_params | IndexSearcherモジュールに指定するパラメーター。 デフォルトでは、このパラメータは空のままです。 指定するパラメーターのインデックス型は、 | デフォルト値なし |
converter | IndexConverterモジュールの名前。 IndexConverterは、Proxima 2.xが特性ベクトルを変換するために使用するモジュールです。 たとえば、特性ベクトルに対してハーフフロート変換とINT8量子化を実行できます。 IndexConverterモジュールは、検索プロセスで別に使用することも、他のモジュールと共に使用することもできます。 詳細については、「IndexConverter」をご参照ください。 | デフォルト値なし |
converter_params | IndexConverterモジュールに指定するパラメーター。 このパラメーターには、1行のJSON文字列を指定する必要があります。 二重引用符 (") はエスケープする必要はありません。 スペースは使用できません。 たとえば、 | デフォルト値なし |
distance_method | 特性ベクトル距離を計算するための式。 有効な値:
| squared_euclidean |
measure_params | distance_methodに指定するパラメーター。 measure_paramsには1行のJSON文字列を指定する必要があります。 二重引用符 (") はエスケープする必要はありません。 スペースは使用できません。 たとえば、distance_methodを | デフォルト値なし |
column_num | IndexBuilderモジュールの列数。 デフォルト値:0
このパラメーターは、 | 0 |
row_num | IndexSearcherモジュールの行数。 デフォルト値:0
このパラメーターは、 | 0 |
category_threshold | マルチカテゴリ検索シナリオで大カテゴリ検索をトリガーするためのしきい値。 カテゴリ内のドキュメントの数が指定されたしきい値を超えると、システムはこのカテゴリの大規模なカテゴリ検索を実行します。 それ以外の場合、システムはこのカテゴリの小カテゴリ検索を実行します。 デフォルトでは、小カテゴリ検索には線形検索方法が使用され、複数の小カテゴリのデータが検索用にマージされます。 | 1000000 |
category_col_num | カテゴリごとにデータをクエリするときに、小さなカテゴリのインデックスが作成される列の数。 小さなカテゴリには100万未満のドキュメントがあります。 詳細は、「 | 0 |
category_row_num | カテゴリごとにデータをクエリするときに、小さなカテゴリのインデックスが作成される行数。 小さなカテゴリには100万未満のドキュメントがあります。 詳細については、「 | 0 |
category_thread_num | カテゴリごとにデータをクエリするときに、大規模なカテゴリ検索を実行するために使用されるタスクの同時実行性。 大きなカテゴリには100万を超えるドキュメントがあります。 タスクの同時実行は、スレッドプールのサイズを示します。 | 10 |
query_multi_label | クエリに複数のカテゴリが含まれるかどうかを指定します。 このパラメーターを | false |
threshold_score | 検索結果を除外するためのスコアのしきい値。 検索された文書の類似 | デフォルト値なし |
tunnel_endpoint | MaxCompute Tunnelエンドポイント。 デフォルトでは、このパラメータは空のままです。 このパラメーターを指定すると、有効なMaxCompute Tunnelエンドポイントを設定できます。 これにより、ネットワーク間でテーブルにアクセスするときにダウンロードセッションの確立に失敗するのを防ぎます。 詳細については、「MaxCompute Tunnel Endpointの問題」をご参照ください。 | デフォルト値なし |
memory_load | シークプロセスでインデックスをメモリにロードするかどうかを指定します。 デフォルトでは、このパラメーターはtrueに設定され、インデックスがメモリに読み込まれることを示します。 クラスターのメモリリソースが不足している場合は、このパラメーターをfalseに設定できます。 | true |
sharding_mode | インデックスシャーディングの実行方法を指定します。 有効な値: | hash |
kmeans_resource_name | k-meansクラスタリングの重心の名前。 このパラメーターは、sharding_modeが | kmeans_resource_name |
kmeans_sample_ratio | k-meansクラスタリングの重心のサンプルレート。 このパラメーターは、sharding_modeが | 0.05 |
kmeans_seek_ratio | k-meansクラスタリングの重心のフィルタリングレート。 このパラメーターは、sharding_modeが | 0.1 |
kmeans_iter_num | k-meansクラスタリングの反復回数。 このパラメーターは、sharding_modeが | 30 |
kmeans_cluster_num | k-meansクラスタリングの重心の数。 このパラメーターは、sharding_modeが | 1000 |
kmeans_init_center_method | k-meansクラスタリングの重心を初期化する方法を指定します。 このパラメーターは、sharding_modeが | "" |
kmeans_worker_num | k-meansクラスタリングのワーカーの数。 このパラメーターは、sharding_modeが | 0 |
mapper_split_size | 内部マッパーが処理できるデータの量。 このパラメーターは、 | 256 |
odps_task_priority | プロキシマCEタスクの優先度。 SQLジョブ、MapReduceジョブ、Graphジョブなど、すべてのMaxComputeジョブでProxima CEタスクの優先順位を設定できます。 有効な値: [0-9] 。 小さい値は、高い優先度を示す。 このパラメーターを-1に設定すると、MaxComputeのベースライン優先度がタスク優先度として使用されます。 | -1 |
oss_access_id | Alibaba CloudアカウントまたはAlibaba CloudアカウントのRAMユーザーのAccessKey ID。 AccessKeyペアページからAccessKey IDを取得できます。 | デフォルト値なし |
oss_access_key | AccessKey IDに対応するAccessKeyシークレット。 AccessKeyペアページからAccessKey secretを取得できます。 | デフォルト値なし |
oss_endpoint | MaxComputeプロジェクトのエンドポイント。 パラメーター値は、MaxComputeプロジェクトの作成時に選択したリージョンとネットワーク接続方法によって異なります。 異なるリージョンとネットワーク接続方法に対応するエンドポイントの詳細については、「エンドポイント」をご参照ください。 | デフォルト値なし |
oss_bucket | Object Storage Service (OSS) バケットの名前。 OSSバケットの名前を表示する方法の詳細については、「バケットのリスト」をご参照ください。 | デフォルト値なし |