本文檔介紹如何在PolarDB MySQL版的列存索引(IMCI)上構建和使用全文索引,通過列級 COMMENT 配置倒排索引,即可利用MATCH...AGAINST文法或自動最佳化的LIKE查詢實現毫秒級模糊檢索。該功能基於 IMCI 的倒排索引與詞項匹配機制實現,詳細原理請參見列存索引全文檢索索引能力剖析。
適用範圍
PolarDB MySQL版的資料庫引擎版本為8.0.1時,小版本需為8.0.1.1.52及以上。
PolarDB MySQL版的資料庫引擎版本為8.0.2時,小版本需為8.0.2.2.32及以上。
文法說明
PolarDB IMCI 可以在建立表時指定列comment或通過DDL修改列comment來建立或修改或刪除倒排索引。
文法格式
建立表時定義全文索引:
CREATE TABLE table_name ( column_name Data_Type COMMENT "imci_fts(type=VALUE [,KEY=VALUE])" ) COMMENT 'columnar=1';使用
ALTER修改列以添加/修改索引:ALTER TABLE table_name MODIFY column_name Data_Type COMMENT "imci_fts(type=VALUE [,KEY=VALUE])";重要修改
COMMENT可能會觸發倒排索引的重建,大表操作建議在業務低峰期執行。使用
ALTER修改列以刪除索引:ALTER TABLE table_name MODIFY column_name Data_Type COMMENT 'imci_fts(enable=0)';
參數說明:
需在表級COMMENT中設定'columnar=1'以建立 IMCI 列存表,全文索引通過列的COMMENT配置,格式為imci_fts(TYPE=VALUE[, KEY=VALUE]...),其中TYPE為必填,KEY為可選,多個KEY用英文逗號分隔。
分詞器類型(
type參數):分詞器
type值說明
token
0(預設)按空格、標點等非字母數字字元進行分詞,適用於英文或格式化文本。
ngram
1按固定長度切分字元(由
len參數控制),適用於任意語言的模糊比對。jieba
2基於詞庫的中文分詞器,適用於中文語義化搜尋。
ik
3另一款常用的中文分詞器。
json
4通過 JSONPath 運算式(需配合
expr參數)從 JSON 欄位中提取內容建立索引。配置參數(
KEY-VALUE)說明:參數名 (KEY)
預設值
取值說明
適用分詞器類型(
type)enable11: 建立倒排索引(預設)0: 刪除倒排索引
所有
type0指定分詞器類型(見上表)
所有
len-
ngram分詞器的分詞長度,取值範圍[2, 256)type=1(ngram)mode0分詞器模式:
jieba (
type=2):0: 精準模式(預設)1: 全模式2: 搜尋引擎模式
ik (
type=3):0: 智能模式(預設)1: 最細粒度模式
json (
type=4):0: 數組模式(預設)
type=2, 3, 4score0是否支援排序:
0: 禁止產生詞頻(TF)、文檔頻率(DF)等,忽略排序(預設)1: 開啟,支援MATCH ... AGAINST的相關性評分排序
所有
seg_size0指定倒排索引段大小:
0: 使用系統變數imci_fts_build_segment_size的值其他值:指定具體段大小
所有
pack_cnt_min0倒排索引構建的資料單元最小數目:
0: 使用系統變數imci_fts_build_packcnt_min的值其他值:指定具體段大小
所有
pack_cnt_max0倒排索引構建的資料單元最大數目:
0: 使用系統變數imci_fts_build_packcnt_max的值其他值:指定具體段大小
所有
stop_word0是否支援停用詞:
0: 不支援(預設)1: 支援
所有
case_sensitive0是否大小寫敏感:
0: 大小寫不敏感(預設)1: 大小寫敏感
所有
使用樣本
一:建立全文索引
為需要進行文本檢索的列建立全文索引,並根據業務需求選擇分詞器。
建立測試表
建立一個包含列存索引的表。CREATE TABLE t1 ( id INT PRIMARY KEY, title VARCHAR(32) COMMENT "imci_fts(type=2)" )CHARSET utf8mb4 COMMENT 'columnar=1';(可選)修改全文索引
通過ALTER TABLE語句將title列添加全文索引,並指定使用jieba分詞器的搜尋引擎模式。ALTER TABLE t1 MODIFY title VARCHAR(32) COMMENT "imci_fts(type=2,mode=0)";(可選)驗證分詞效果
在選擇分詞器前,可使用dbms_imci.fts_tokenize函數預覽不同分詞器對文本的處理效果。CALL dbms_imci.fts_tokenize("I am PolarDB"); -- 結果:["i", "am", "polardb"] CALL dbms_imci.fts_tokenize("I am PolarDB", "type=1"); -- 結果:["i ", " a", "am", "m ", " p", "po", "ol", "ar", "rd", "db"] CALL dbms_imci.fts_tokenize("I am PolarDB", "type=2"); -- 結果:["PolarDB"] CALL dbms_imci.fts_tokenize("I am PolarDB", "type=2,mode=1"); -- 結果: ["polardb"]
二:執行全文檢索索引查詢
索引建立後,IMCI 會在後台完成構建。構建完成後,即可通過 MATCH...AGAINST 或最佳化的 LIKE 語句執行文字查詢。
使用
MATCH...AGAINST查詢:-- 插入樣本資料 INSERT INTO t1 VALUES (16, 'polarDB全文索引功能title'), (17, '資料庫title效能最佳化'); -- 查詢 title 列包含“索引”的記錄 SELECT * FROM t1 WHERE MATCH(title) AGAINST("title");通過
EXPLAIN查看執行計畫,可以看到FtsTableScan運算元,表示查詢已命中全文索引。mysql> explain SELECT * FROM t1 WHERE MATCH(title) AGAINST("title") AND id > 10; +----+------------------------+------+-----------------------------------------------------------------+ | ID | Operator | Name | Extra Info | +----+------------------------+------+-----------------------------------------------------------------+ | 1 | Select Statement | | IMCI Execution Plan (max_dop = 32, max_query_mem = 41230008320) | | 2 | └─Compute Scalar | | | | 3 | └─FILTER | | Cond: (t1.id > 10) | | 4 | └─FtsTableScan | t1 | Term: ("title") Fallback: (t1.title LIKE "%title%") | +----+------------------------+------+-----------------------------------------------------------------+Fallback表示對於尚未被索引的增量資料,系統會自動使用LIKE補充掃描,保證結果完整性。加速
LIKE查詢:
為相容已有業務代碼,IMCI 支援將特定的LIKE查詢自動轉換為MATCH...AGAINST以進行加速。mysql> SET imci_convert_like_to_match = on; mysql> explain SELECT * FROM t1 WHERE title LIKE "%title%"; +----+------------------------+------+-----------------------------------------------------------------+ | ID | Operator | Name | Extra Info | +----+------------------------+------+-----------------------------------------------------------------+ | 1 | Select Statement | | IMCI Execution Plan (max_dop = 32, max_query_mem = 41230008320) | | 2 | └─Compute Scalar | | | | 3 | └─FILTER | | Cond: (t1.title LIKE "%title%") | | 4 | └─FtsTableScan | t1 | Term: ("title") Fallback: (t1.title LIKE "%title%") | +----+------------------------+------+-----------------------------------------------------------------+執行計畫同樣會顯示
FtsTableScan運算元,證明LIKE查詢已被成功加速。match轉為like:在缺少全文索引,為確保查詢仍能正確執行,同時儘可能利用已有索引時,IMCI可能會將
MATCH轉換為LIKE,執行計畫顯示為全表掃描。mysql> SET imci_enable_query_fts_like = on; mysql> explain SELECT * FROM t1 WHERE MATCH(title) AGAINST("title"); +----+----------------------+------+-----------------------------------------------------------------+ | ID | Operator | Name | Extra Info | +----+----------------------+------+-----------------------------------------------------------------+ | 1 | Select Statement | | IMCI Execution Plan (max_dop = 32, max_query_mem = 41230008320) | | 2 | └─Compute Scalar | | | | 3 | └─Table Scan | t1 | Cond: (title LIKE "%title%") | +----+----------------------+------+-----------------------------------------------------------------+
三:管理與監控索引
查詢索引的構建狀態、中繼資料資訊,並在不再需要時刪除索引。
監控索引構建進度和狀態:
-- 查看所有倒排索引 SHOW imci indexes fulltext; SELECT * FROM information_schema.imci_fts_indexes; -- 查看指定倒排索引 SHOW imci indexes fulltext FOR [db_name].[table_name]; SELECT * FROM information_schema.imci_fts_indexes WHERE schema_name='[db_name]' AND table_name='[table_name]'; -- 查看指定倒排索引的中繼資料 SELECT * FROM information_schema.imci_fts_index_metas WHERE schema_name='[db_name]' AND table_name='[table_name]' AND column_name='[column_name]'; -- 查看指定倒排索引的段資料 SELECT * FROM information_schema.imci_fts_index_segs WHERE schema_name='[db_name]' AND table_name='[table_name]' AND column_name='[column_name]'; -- 查看指定倒排索引的列存資料 SELECT * FROM information_schema.imci_fts_index_packs WHERE schema_name='[db_name]' AND table_name='[table_name]' AND column_name='[column_name]';刪除全文索引:
如果不再需要某個列的全文索引,可以通過修改列的COMMENT將其刪除。ALTER TABLE t1 MODIFY title VARCHAR(255) COMMENT 'imci_fts(enable=0)';
四:核心配置參數說明
參數名 | 層級 | 說明 |
imci_enable_fts | Global | 是否允許在列存節點上建立倒排索引。
|
imci_enable_fts_query | Global/ Session | 是否允許在列存節點上使用倒排索引。
|
imci_fts_build_pack_cnt_min | Global | 倒排索引構建時控制每一倒排索引的列存資料區塊最小數目。 取值範圍為:0-8192,預設值為8,其中0表示暫時不構建。 |
imci_fts_build_pack_cnt_max | Global | 倒排索引構建時控制每一倒排索引的列存資料區塊最大數目。 取值範圍為:0-8192,預設值為128。 |
imci_fts_build_segment_size | Global | 倒排索引構建時控制每一倒排索引的段大小。 取值範圍為:0-4294967295,預設值為536870912(512MB),單位位元組。 |
imci_fts_lru_cache_capacity | Global | 倒排索引字典緩衝空間。 取值範圍:[DBNodeClassMemory*1/10~DBNodeClassMemory*1/2],預設值為[DBNodeClassMemory*10/100]。 |
imci_enable_fts_pruner | Global/ Session | 是否開啟倒排索引預過濾最佳化。
|
imci_convert_like_to_match | Global/ Session | 是否開啟將
|
imci_enable_query_fts_like | Global/ Session | 是否開啟將
|
imci_enable_match_expr_fallback | Global/ Session | 當倒排索引不可用或正在構建時,是否允許查詢降級執行。
|
層級為 GLOBAL 的參數無法通過命令列直接修改,僅可通過控制台設定;在命令列中執行時,預設視為 SESSION 層級操作。
常見問題
Q1: 如何選擇合適的分詞器?
英文或格式化文本:使用預設的
type=0(token),按空格和標點符號分詞。中文精確搜尋:使用
type=2(jieba) 或type=3(ik) 的預設模式。JSON 內容檢索:使用
type=4(json) 並配合expr參數指定要索引的 JSON 路徑。可以通過dbms_imci.fts_tokenize函數預覽不同分詞器對文本的處理效果。
Q2: 為什麼我的查詢沒有使用全文索引?
請確認
SET imci_enable_fts_query = ON;已執行。這是最常見的原因。檢查
EXPLAIN的輸出,確認是否有FtsTableScan運算元。如果沒有,可能是查詢模式不匹配或系統評估後認為全表掃描成本更低。
Q3: LIKE查詢和MATCH...AGAINST有何區別?
LIKE '%keyword%'在沒有全文索引時會導致全表掃描,效能極差。即使被 IMCI 加速,其功能也相對單一。MATCH...AGAINST是專為全文檢索索引設計的文法,不僅效能高,未來還支援更複雜的布爾查詢、相關性排序等進階功能。建議新開發業務優先使用MATCH...AGAINST。