IMCI全文索引使用说明 - 云原生数据库 PolarDB

本文档介绍如何在PolarDB MySQL版的列存索引（IMCI）上构建和使用全文索引，通过列级 COMMENT 配置倒排索引，即可利用MATCH...AGAINST语法或自动优化的LIKE查询实现毫秒级模糊检索。该功能基于 IMCI 的倒排索引与词项匹配机制实现，详细原理请参见列存索引全文检索能力剖析。

适用范围

您的集群版本需满足以下条件：

MySQL 8.0.1，且内核小版本需为8.0.1.1.52及以上版本。
MySQL 8.0.2，且内核小版本需为8.0.2.2.32及以上版本。

语法说明

PolarDB IMCI 可以在创建表时指定列comment或通过DDL修改列comment来创建或修改或删除倒排索引。

语法格式

创建表时定义全文索引：

CREATE TABLE table_name (
    column_name Data_Type COMMENT "imci_fts(type=VALUE [,KEY=VALUE])"
) COMMENT 'columnar=1';

使用ALTER修改列以添加/修改索引：
```
ALTER TABLE table_name MODIFY column_name Data_Type COMMENT "imci_fts(type=VALUE [,KEY=VALUE])";
```
重要
修改COMMENT可能会触发倒排索引的重建，大表操作建议在业务低峰期执行。

使用ALTER修改列以删除索引：

ALTER TABLE table_name MODIFY column_name Data_Type COMMENT 'imci_fts(enable=0)';

参数说明：

需在表级COMMENT中设置'columnar=1'以创建 IMCI 列存表，全文索引通过列的COMMENT配置，格式为imci_fts(TYPE=VALUE[, KEY=VALUE]...)，其中TYPE为必填，KEY为可选，多个KEY用英文逗号分隔。

分词器类型（type 参数）：

分词器	`type` 值	说明
token	0 （默认）	按空格、标点等非字母数字字符进行分词，适用于英文或格式化文本。
ngram	1	按固定长度切分字符（由 `len` 参数控制），适用于任意语言的模糊匹配。
jieba	2	基于词库的中文分词器，适用于中文语义化搜索。
ik	3	另一款常用的中文分词器。
json	4	通过 JSONPath 表达式（需配合 `expr` 参数）从 JSON 字段中提取内容建立索引。
whole	5	不进行切分，将整个列作为词项，主要用于等值(如=或in等)加速。

配置参数（KEY-VALUE）说明：

参数名 (KEY)	默认值	取值说明	适用分词器类型（`type`）
enable	1	`1`：创建倒排索引（默认） `0`：删除倒排索引	所有
type	0	指定分词器类型（见上表）	所有
len	-	`ngram` 分词器的分词长度，取值范围 `[2, 256)`	`type=1` (ngram)
mode	0	分词器模式： jieba (`type=2`): `0`：精准模式（默认） `1`：全模式 `2`：搜索引擎模式 ik (`type=3`): `0`：智能模式（默认） `1`：最细粒度模式 json (`type=4`): `0`：数组模式（默认）	`type=2, 3, 4`
score	0	是否支持排序： `0`：禁止生成词频（TF）、文档频率（DF）等，忽略排序（默认） `1`：开启，支持 `MATCH ... AGAINST` 的相关性评分排序	所有
seg_size	0	指定倒排索引段大小： `0`：使用系统变量 `imci_fts_build_segment_size` 的值其他值：指定具体段大小	所有
pack_cnt_min	0	倒排索引构建的数据单元最小数目： `0`：使用系统变量 `imci_fts_build_packcnt_min` 的值其他值：指定具体段大小	所有
pack_cnt_max	0	倒排索引构建的数据单元最大数目： `0`：使用系统变量 `imci_fts_build_packcnt_max` 的值其他值：指定具体段大小	所有
stop_word	0	是否支持停用词： `0`：不支持（默认） `1`：支持	所有
case_sensitive	0	是否大小写敏感： `0`：大小写不敏感（默认） `1`：大小写敏感	所有

使用示例

一：创建全文索引

为需要进行文本检索的列创建全文索引，并根据业务需求选择分词器。

创建测试表：创建一个包含列存索引的表。

CREATE TABLE t1 (
    id INT PRIMARY KEY,
    title VARCHAR(32) COMMENT "imci_fts(type=2)"
)CHARSET utf8mb4 COMMENT 'columnar=1';

（可选）修改全文索引：通过ALTER TABLE语句将title列添加全文索引，并指定使用 jieba 分词器的搜索引擎模式。
```
ALTER TABLE t1 MODIFY title VARCHAR(32) COMMENT "imci_fts(type=2,mode=0)";
```

（可选）验证分词效果：在选择分词器前，可使用 dbms_imci.fts_tokenize 函数预览不同分词器对文本的处理效果。

CALL dbms_imci.fts_tokenize("I am PolarDB");
-- 结果：["i", "am", "polardb"]  

CALL dbms_imci.fts_tokenize("I am PolarDB", "type=1");
-- 结果：["i ", " a", "am", "m ", " p", "po", "ol", "ar", "rd", "db"]

CALL dbms_imci.fts_tokenize("I am PolarDB", "type=2");
-- 结果：["PolarDB"]

CALL dbms_imci.fts_tokenize("I am PolarDB", "type=2,mode=1");
-- 结果： ["polardb"]

二：执行全文检索查询

索引创建后，IMCI 会在后台完成构建。构建完成后，即可通过 MATCH...AGAINST 或优化的 LIKE 语句执行文本查询。

使用MATCH...AGAINST查询：

-- 插入示例数据
INSERT INTO t1 VALUES 
(16, 'polarDB全文索引功能title'), 
(17, '数据库title性能优化');
-- 查询 title 列包含“索引”的记录
SELECT * FROM t1 WHERE MATCH(title) AGAINST("title");

通过EXPLAIN查看执行计划，可以看到 FtsTableScan 算子，表示查询已命中全文索引。

EXPLAIN SELECT * FROM t1 WHERE MATCH(title) AGAINST("title") AND id > 10;
+----+------------------------+------+-----------------------------------------------------------------+
| ID | Operator               | Name | Extra Info                                                      |
+----+------------------------+------+-----------------------------------------------------------------+
|  1 | Select Statement       |      | IMCI Execution Plan (max_dop = 32, max_query_mem = 41230008320) |
|  2 | └─Compute Scalar       |      |                                                                 |
|  3 |   └─FILTER             |      | Cond：(t1.id > 10)                                              |
|  4 |     └─FtsTableScan     | t1   | Term：("title") Fallback：(t1.title LIKE "%title%")             |
+----+------------------------+------+-----------------------------------------------------------------+

Fallback表示对于尚未被索引的增量数据，系统会自动使用LIKE补充扫描，保证结果完整性。

加速LIKE查询：为兼容已有业务代码，IMCI 支持将特定的LIKE查询自动转换为 MATCH...AGAINST 以进行加速。

SET imci_convert_like_to_match = on;
EXPLAIN SELECT * FROM t1 WHERE title  LIKE "%title%";
+----+------------------------+------+-----------------------------------------------------------------+
| ID | Operator               | Name | Extra Info                                                      |
+----+------------------------+------+-----------------------------------------------------------------+
|  1 | Select Statement       |      | IMCI Execution Plan (max_dop = 32, max_query_mem = 41230008320) |
|  2 | └─Compute Scalar       |      |                                                                 |
|  3 |   └─FILTER             |      | Cond：(t1.title LIKE "%title%")                                 |
|  4 |     └─FtsTableScan     | t1   | Term：("title") Fallback：(t1.title LIKE "%title%")             |
+----+------------------------+------+-----------------------------------------------------------------+

执行计划同样会显示 FtsTableScan 算子，证明 LIKE 查询已被成功加速。

match转为like：在缺少全文索引，为确保查询仍能正确执行，同时尽可能利用已有索引时，IMCI可能会将MATCH转换为LIKE，执行计划显示为全表扫描。

SET imci_enable_query_fts_like = on;
EXPLAIN SELECT * FROM t1 WHERE MATCH(title) AGAINST("title");
+----+----------------------+------+-----------------------------------------------------------------+
| ID | Operator             | Name | Extra Info                                                      |
+----+----------------------+------+-----------------------------------------------------------------+
|  1 | Select Statement     |      | IMCI Execution Plan (max_dop = 32, max_query_mem = 41230008320) |
|  2 | └─Compute Scalar     |      |                                                                 |
|  3 |   └─Table Scan       | t1   | Cond：(title LIKE "%title%")                                    |
+----+----------------------+------+-----------------------------------------------------------------+

三：管理与监控索引

查询索引的构建状态、元数据信息，并在不再需要时删除索引。

监控索引构建进度和状态：

-- 查看所有倒排索引
SHOW imci indexes fulltext;
SELECT * FROM information_schema.imci_fts_indexes;

-- 查看指定倒排索引
SHOW imci indexes fulltext FOR [db_name].[table_name];
SELECT * FROM information_schema.imci_fts_indexes 
WHERE schema_name='[db_name]' AND table_name='[table_name]';

-- 查看指定倒排索引的元数据
SELECT * FROM information_schema.imci_fts_index_metas 
WHERE schema_name='[db_name]' AND table_name='[table_name]' AND column_name='[column_name]';

-- 查看指定倒排索引的段数据
SELECT * FROM information_schema.imci_fts_index_segs 
WHERE schema_name='[db_name]' AND table_name='[table_name]' AND column_name='[column_name]';

-- 查看指定倒排索引的列存数据
SELECT * FROM information_schema.imci_fts_index_packs 
WHERE schema_name='[db_name]' AND table_name='[table_name]' AND column_name='[column_name]';

删除全文索引：如果不再需要某个列的全文索引，可以通过修改列的COMMENT将其删除。
```
ALTER TABLE t1 MODIFY title VARCHAR(255) COMMENT 'imci_fts(enable=0)';
```

四：核心配置参数说明

参数名	级别	说明
imci_enable_fts	Global	是否允许在列存节点上创建倒排索引。 ON（默认）：开启，支持字符串与JSON等类型。 OFF：关闭。
imci_enable_fts_query	Global / Session	是否允许在列存节点上使用倒排索引。 ON：开启。 OFF（默认）：关闭。
imci_fts_build_pack_cnt_min	Global	倒排索引构建时控制每一倒排索引的列存数据块最小数目。取值范围为：0-8192，默认值为8，其中0表示暂时不构建。
imci_fts_build_pack_cnt_max	Global	倒排索引构建时控制每一倒排索引的列存数据块最大数目。取值范围为：0-8192，默认值为128。
imci_fts_build_segment_size	Global	倒排索引构建时控制每一倒排索引的段大小。取值范围为：0-4294967295，默认值为536870912（512MB），单位字节。
imci_fts_lru_cache_capacity	Global	倒排索引字典缓存空间。取值范围：[DBNodeClassMemory1/10~DBNodeClassMemory1/2]，默认值为[DBNodeClassMemory*10/100]。
imci_enable_fts_pruner	Global / Session	是否开启倒排索引预过滤优化。 ON（默认）：开启。 OFF：关闭。
imci_convert_like_to_match	Global / Session	是否开启将`like`转换为`match`并利用倒排索引进行加速。 ON：开启。 OFF（默认）：关闭。 ONLY_MATCH：开启且忽略`like`表达式；
imci_enable_query_fts_like	Global / Session	是否开启将`match`转换为`like`。 ON：开启。 OFF（默认）：关闭。
imci_enable_match_expr_fallback	Global / Session	是否开启倒排索引的尚未构建增量数据查询。 ON（默认）：开启。 OFF：关闭。
imci_fts_build_fts_cnt	Global	倒排索引构建的并发数。取值范围：0-512，默认值：4。说明当前参数仅适用于以下版本： MySQL 8.0.1，且内核小版本需为8.0.1.1.54及以上版本。 MySQL 8.0.2，且内核小版本需为8.0.2.2.34及以上版本。
imci_fts_user_dict_table	Global	配置全文索引的自定义词典，格式：库名/表名。说明当前参数仅适用于以下版本： MySQL 8.0.1，且内核小版本需为8.0.1.1.54及以上版本。 MySQL 8.0.2，且内核小版本需为8.0.2.2.34及以上版本。
imci_fts_user_dict_update	Global	是否重新加载`imci_fts_user_dict_table`指定的自定义词典。 ON（默认）：开启。 OFF：关闭。说明当前参数仅适用于以下版本： MySQL 8.0.1，且内核小版本需为8.0.1.1.54及以上版本。 MySQL 8.0.2，且内核小版本需为8.0.2.2.34及以上版本。

重要

级别为 GLOBAL 的参数无法通过命令行直接修改，仅可通过控制台设置；在命令行中执行时，默认视为 SESSION 级别操作。

自定义词典

IMCI全文索引功能支持通过自定义表来实现自定义词典功能，以获取更贴近业务实际场景的分词结果。

创建自定义词典表

首先需要定义一个与my_fts_dict表结构相同的表，列名称需要和my_fts_dict表保持一致。

type：分词器类型，仅支持jieba分词器（类型为2）和 ik 分词器（类型为3）。
word：实体词。
is_added：从自定义词典中添加（值为1）或删除（值为2）。

CREATE TABLE my_fts_dict (
  `type` INT UNSIGNED NOT NULL COMMENT '2 for jieba, 3 for ik',
  `word` VARCHAR(256) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL COMMENT 'dict word',
  `is_added` INT UNSIGNED NOT NULL DEFAULT 1 COMMENT '1 for add, 2 for delete'
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin COMMENT='imci fts user dict';

自定义词典本身是一张InnoDB表，读写操作与普通表一样。

添加词条：

INSERT INTO my_fts_dict VALUES(2, "PolarDB", 1)

删除词条：

INSERT INTO my_fts_dict(type, word, is_added) VALUES(2, "PolarDB", 2);
或
DELETE FROM my_fts_dict WHERE type=2 AND word = "PolarDB";

配置自定义词典

创建自定义词典表后，可以配置imci_fts_user_dict_table选项的值。例如，test/my_fts_dict'。
```
SET GLOBAL imci_fts_user_dict_table = 'test/my_fts_dict';
```
如果imci_fts_user_dict_table已经设置，也可以通过imci_fts_user_dict_update配置为ON，来触发重新加载imci_fts_user_dict_table指定的自定义词典。
```
SET GLOBAL imci_fts_user_dict_update = ON;
```
说明
新自定义词典只对后面新构建的倒排索引生效，若需要对已经构建好的倒排索引生效则需要重建倒排索引。

常见问题

Q1：如何选择合适的分词器？

英文或格式化文本：使用默认的type=0(token)，按空格和标点符号分词。
中文精确搜索：使用type=2(jieba) 或type=3(ik) 的默认模式。
JSON 内容检索：使用 type=4 (json) 并配合 expr 参数指定要索引的 JSON 路径。
可以通过dbms_imci.fts_tokenize函数预览不同分词器对文本的处理效果。

Q2：为什么我的查询没有使用全文索引？

请确认 SET imci_enable_fts_query = ON; 已执行。这是最常见的原因。
检查EXPLAIN的输出，确认是否有FtsTableScan算子。如果没有，可能是查询模式不匹配或系统评估后认为全表扫描成本更低。

Q3: LIKE查询和MATCH...AGAINST有何区别？

LIKE '%keyword%' 在没有全文索引时会导致全表扫描，性能极差。即使被 IMCI 加速，其功能也相对单一。
MATCH...AGAINST是专为全文检索设计的语法，不仅性能高，未来还支持更复杂的布尔查询、相关性排序等高级功能。建议新开发业务优先使用MATCH...AGAINST。