使用CreateSearchIndex介面在資料表上建立一個多元索引。一個資料表可以建立多個多元索引。

前提條件

  • 已初始化Client。具體操作,請參見初始化
  • 已建立資料表,且資料表的資料生命週期(time_to_live)必須為-1,最大版本數(max_versions)必須為1。

參數

建立多元索引時,需要指定資料表名稱(table_name)、多元索引名稱(index_name)和索引的結構資訊(schema),其中schema包含field_schemas(Index的所有欄位的設定)、index_setting(索引設定)和index_sort(索引預排序設定)。詳細參數說明請參見下表。

組成 說明
table_name 資料表名稱。
index_name 多元索引名稱。
field_schemas field_schema的列表,每個field_schema包含如下內容:
  • field_name(必選):建立多元索引的欄位名,即列名,類型為String。

    多元索引中的欄位可以是主鍵列或者屬性列。

  • field_type(必選):欄位類型,類型為FieldType.XXX。更多資訊,請參見資料類型映射
  • is_array(可選):是否為數組,類型為Boolean。

    如果設定為true,則表示該列是一個數組,在寫入時,必須按照JSON數組格式寫入,例如["a","b","c"]。

    由於Nested類型是一個數組,當field_type為Nested類型時,無需設定此參數。

  • index(可選):是否開啟索引,類型為Boolean。

    預設為true,表示對該列構建倒排索引或者空間索引;如果設定為false,則不會對該列構建索引。

  • analyzer(可選):分詞器類型。當欄位類型為Text時,可以設定此參數;如果不設定,則預設分詞器類型為單字分詞。關於分詞的更多資訊,請參見分詞
  • enable_sort_and_agg(可選):是否開啟排序與統計彙總功能,類型為Boolean。
    只有enable_sort_and_agg設定為true的欄位才能進行排序。關於排序的更多資訊,請參見排序和翻頁
    重要 Nested類型的欄位不支援開啟排序與統計彙總功能,但是Nested類型內部的子列支援開啟排序與統計彙總功能。
  • store(可選):是否在多元索引中附加儲存該欄位的值,類型為Boolean。

    開啟後,可以直接從多元索引中讀取該欄位的值,而不必反查資料表,可用於查詢效能最佳化。

  • sub_field_schemas(可選):當欄位類型為Nested類型時,需要通過此參數設定嵌套文檔中子列的索引類型,類型為field_schema的列表。
  • is_virtual_field(可選):該欄位是否為虛擬列,類型為Boolean類型,預設值為false。只有使用虛擬列時,才需要設定此參數。關於虛擬列的更多資訊,請參見虛擬列
  • source_field_name(可選):資料表中的欄位名稱,類型為String。
    重要 當設定is_virtual_field為true時,必須設定此參數。
  • date_formats(可選):日期的格式,類型為String。更多資訊,請參見日期資料類型
    重要 當欄位類型為Date時,必須設定此參數。
index_setting 索引設定,包含routing_fields設定。

routing_fields(可選):自訂路由欄位。可以選擇部分主鍵列作為路由欄位,在進行索引資料寫入時,會根據路由欄位的值計算索引資料的分布位置,路由欄位的值相同的記錄會被索引到相同的資料分區中。

index_sort 索引預排序設定,包含sorters設定。如果不設定,則預設按照主鍵排序。
说明 含有Nested類型的索引不支援indexSort,沒有預排序。
sorters(必選):索引的預排序方式,支援按照主鍵排序和欄位值排序。關於排序的更多資訊,請參見排序和翻頁
  • PrimaryKeySort表示按照主鍵排序,包含如下設定:

    sort_order:排序的順序,可按升序或者降序排序,預設為升序(SortOrder.ASC)。

  • FieldSort表示按照欄位值排序,包含如下設定:

    只有建立索引且開啟排序與統計彙總功能的欄位才能進行預排序。

    • field_name:排序的欄位名。
    • sort_order:排序的順序,可按照升序或者降序排序,預設為升序(SortOrder.ASC)。
    • sort_mode:當欄位存在多個值時的排序方式。

樣本

建立多元索引時設定分詞。多元索引包括k(Keyword類型)、t(Text類型)、g(Geopoint類型)、ka(數組Keyword類型)、la(數組Long類型)和n(Nested類型)六個欄位。其中n欄位包括nk(Keyword類型)、nl(Long類型)和nt(Text類型)三個子欄位。

#Keyword類型的欄位,建立索引並開啟統計彙總功能。
field_a = FieldSchema('k', FieldType.KEYWORD, index=True, enable_sort_and_agg=True, store=True)
#Text類型的欄位,建立索引並使用單字分詞。
field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SINGLEWORD)
#Text類型的欄位,建立索引並使用模糊分詞。
#filed_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.FUZZY,analyzer_parameter=FuzzyAnalyzerParameter(1, 6))
#Text類型的欄位,建立索引並使用自訂分隔字元半形逗號(,)進行分詞。
#field_b = FieldSchema('t', FieldType.TEXT, index=True, store=True, analyzer=AnalyzerType.SPLIT, analyzer_parameter = SplitAnalyzerParameter(","))
#Geopoint類型的欄位,建立索引。
field_c = FieldSchema('g', FieldType.GEOPOINT, index=True, store=True)
#數組Kerword類型欄位,建立索引。
field_d = FieldSchema('ka', FieldType.KEYWORD, index=True, is_array=True, store=True)
#數組Long類型欄位,建立索引。
field_e = FieldSchema('la', FieldType.LONG, index=True, is_array=True, store=True)

#Nested類型欄位,包括nk(Keyword類型)、nl(Long類型)和nt(Text類型)三個子欄位。
field_n = FieldSchema('n', FieldType.NESTED, sub_field_schemas=[
    FieldSchema('nk', FieldType.KEYWORD, index=True, store=True),
    FieldSchema('nl', FieldType.LONG, index=True, store=True),
    FieldSchema('nt', FieldType.TEXT, index=True, store=True),
])

fields = [field_a, field_b, field_c, field_d, field_e, field_n]

index_setting = IndexSetting(routing_fields=['PK1']) 
index_sort = None #當多元索引中存在Nested類型欄位時,不能設定索引預排序.
#index_sort = Sort(sorters=[PrimaryKeySort(SortOrder.ASC)])
index_meta = SearchIndexMeta(fields, index_setting=index_setting, index_sort=index_sort)
client.create_search_index(table_name, index_name, index_meta)