本文為您介紹Proxima CE在運行過程中所使用到的參數說明,包括選擇性參數和必選參數。
必選參數
參數名稱 | 說明 |
doc_table | 輸入底庫表(MaxCompute table),需要使用者準備,作為檢索候選集合。 重要 建立的表名不能使用半形點號 |
doc_table_partition | 底庫表的MaxCompute分區。 |
query_table | 輸入查詢表(MaxCompute table),需要使用者準備,作為檢索集合。 重要 建立的表名不能使用英文點號 |
query_table_partition | 查詢表的MaxCompute分區。 |
output_table | 輸出表,不需要使用者建立,指定表名即可,用於儲存檢索結果。 |
output_table_partition | 輸出表的MaxCompute分區。 |
data_type | 指定輸入資料表的資料類型,目前支援 |
dimension | 向量特徵的維度, |
選擇性參數
參數名稱 | 說明 | 預設值 |
h (–help) | 使用協助。 | 無 |
topk | 召回相似的結果個數,可以指定多個值 | 200 |
pk_type | 指明輸入表的 | string |
vector_separator | 向量的分隔字元,可以指定波浪號之外的其他分隔字元,支援空格,空格為 | ~ |
binary_to_int | 是否使用INT32來表示BINARY資料,該參數只對BINARY類型的資料有效,其它參數不支援, | false |
job_mode | 目前支援的模式為如下組合:
| train:build:seek |
clean_build_volume | 是否刪除索引,build job 完成索引構建之後,會在MaxCompute的volume上寫索引,seek job去載入該索引,執行完seek job之後,預設刪除索引。 說明 當任務失敗時,如果指定為 true,索引也會被清理。 | true |
algo_model | 索引構建方法,目前基於proxima2.x核心主要主持如下六種索引構建方法
| hnsw |
builder_params | 索引構建的參數,預設為空白。該參數與 | 無 |
searcher_params | 索引查詢的參數,預設為空白。該參數與 | 無 |
converter | 指定索引構建的converter名稱。Index Converter是Proxima2.x對特徵向量進行轉換的模組,例如對特徵進行降維half float轉換,int8量化等。可獨立使用,也可作為檢索流程中一部分,詳情參考Index Converter。 | 無 |
converter_params | 指定converter參數,參數以單行JSON字串提供,雙引號不需要轉義,中間不能有空格。例如指定 | 無 |
distance_method | 特徵距離計算公式,目前支援:
| squared_euclidean |
measure_params | 指定距離(-distance_method)參數,參數以單行JSON字串提供,雙引號不需要轉義,中間不能有空格。例如指定 | 無 |
column_num | 構建索引的列數,預設為0。
| 0 |
row_num | 檢索查詢的行數,預設為0。
| 0 |
category_threshold | 在多類目檢索情境下,指定為大類目檢索的閾值。當某個類目下的doc數超過該閾值時判斷該類目走大類目檢索,否則走小類目檢索,其中小類目檢索預設採用線性檢索方式,且多個小類目資料合併在一起檢索。 | 1000000 |
category_col_num | 按類目查詢時,小類目(doc數小於100萬)構建索引的列數,具體參考 | 0 |
category_row_num | 按類目查詢時,小類目(doc數小於100萬)查詢索引的行數,具體參考 | 0 |
category_thread_num | 按類目查詢時,設定處理大類目(doc數大於100萬)任務的並發度(線程池大小)。 | 10 |
query_multi_label | 單個query是否有多個category,若設定 | false |
threshold_score | 檢索結果分數過濾閾值。對於當召回的 doc 的 | 無 |
tunnel_endpoint | 設定MaxCompute的tunnel endpoint值,預設為空白。防止跨網路訪問資料表時download session建立失敗,詳情可參考MaxCompute Tunnel Endpoint問題。 | 無 |
memory_load | 指定seek階段索引載入方式,預設為true,純記憶體載入,當叢集記憶體資源緊張時可視情況設為false。 | true |
sharding_mode | 索引分區方式,目前支援 | hash |
kmeans_resource_name | 主要作用 | kmeans_resource_name |
kmeans_sample_ratio | 主要作用 | 0.05 |
kmeans_seek_ratio | 主要作用 | 0.1 |
kmeans_iter_num | 主要作用 | 30 |
kmeans_cluster_num | 主要作用 | 1000 |
kmeans_init_center_method | 主要作用 | "" |
kmeans_worker_num | 主要作用 | 0 |
mapper_split_size | 暴露 | 256 |
odps_task_priority | Proxima CE任務優先順序選項,通過設定Proxima CE內部所有MaxCompute任務(sql、MR、Graph等任務)的優先順序來完成,取值[0-9],數字越小優先順序越高,預設為-1跟隨MaxCompute基準優先順序。 | -1 |
oss_access_id | 阿里雲帳號或RAM使用者的AccessKey ID。您可以進入AccessKey管理頁面擷取AccessKey ID。 | 無 |
oss_access_key | AccessKey ID對應的AccessKey Secret。 您可以進入AccessKey管理頁面擷取AccessKey Secret。 | 無 |
oss_endpoint | MaxCompute服務的串連地址。 您需要根據建立MaxCompute專案時選擇的地區以及網路連接方式配置Endpoint。各地區及網路對應的Endpoint值,請參見Endpoint。 | 無 |
oss_bucket | OSS儲存空間名稱,即Bucket名稱。查看儲存空間名稱操作,請參見列舉儲存空間。 | 無 |