本文将详细介绍达梦数据库中全文索引的技术原理、创建方法、使用技巧和最佳实践，帮助开发者充分利用这一功能提升文本检索效率。

1 全文索引概述

全文索引是数据库中针对文本内容进行快速搜索的关键技术。与传统结构化数据检索不同，全文检索专门用于处理非结构化文本数据（如文章内容、产品描述等），通过建立倒排索引实现高效的关键词定位。达梦数据库的全文检索技术基于词库建立索引，显著减少了大数据量下的检索时间。
在传统数据库中，对文本内容通常只能使用LIKE进行模糊查询，这种方式效率低下且无法处理语义相关需求。达梦全文索引通过分词技术和倒排索引结构解决了这一问题，支持高效的关键词查询、布尔运算和混合条件检索。

2 核心原理与架构

分词机制

分词是全文索引的基础，达梦支持多种分词算法：
中文最少分词（CHINESE_LEXER）：消除二义性分词，如"和服装"分为"和"、"服装"。
机械双字分词（CHINESE_VGRAM_LEXER）：二元分割法。
中文最多分词（CHINESE_FP_LEXER）：保留所有可能词组，如"和服装"生成"和"、"和服"、"服"、"服装"和"装"。
英文分词（ENGLISH_LEXER）：根据空格和标点分割，处理超过32字节的长词拆分。
默认分词（DEFAULT_LEXER）：等同于中文最少分词。
达梦采用改进的逆向最大匹配算法进行分词，该算法从句子尾部开始匹配词典，准确率高于正向匹配。分词过程依赖于系统词库（只读），不支持用户自定义扩展。

倒排索引结构

达梦使用倒排索引（Inverted Index）存储分词结果，这是一种将单词映射到包含它的文档的数据结构。创建全文索引时，系统自动生成四个辅助表：
CTI$INDEX_NAME$I表：存储分词结果，包含词ID、词文本、词类型、ROWID范围等信息。
CTI$INDEX_NAME$P表：记录基表的增量数据变化，用于增量更新。
CTI$INDEX_NAME$N表：保存原表记录rowid和新词记录docid的映射关系。
CTI$INDEX_NAME$D表：存储待删除的docid。
-- 查看全文索引系统表

SELECT * FROM CTISYS.SYSCONTEXTINDEXES;

索引更新机制

全文索引支持两种更新方式：
完全更新（REBUILD）：删除原索引并重新构建，适用于数据大规模变更后。

ALTER CONTEXT INDEX cti_name ON table_name REBUILD;

增量更新（INCREMENT）：仅处理上次更新后变更的数据，效率更高。

ALTER CONTEXT INDEX cti_name ON table_name INCREMENT;

此外，达梦还支持实时自动增量更新（SYNC TRANSACTION），在创建索引时指定后，每次事务提交都会自动更新索引：

CREATE CONTEXT INDEX cti_name ON table_name(column_name) SYNC TRANSACTION;

3 创建与使用全文索引

创建全文索引

创建全文索引需要满足以下条件：
只能在基表上创建，不支持系统表、视图、临时表等。
支持的列类型包括：CHAR、CHARACTER、VARCHAR、VARCHAR2、LONGVARCHAR、TEXT或CLOB。
同一列只能创建一个全文索引。
基本创建语法如下：
CREATE CONTEXT INDEX index_name ON [schema_name.]table_name(column_name)
[LEXER lexer_type]
[SYNC [TRANSACTION]];
示例：创建表并建立全文索引

-- 创建示例表
CREATE TABLE articles (
    id INT PRIMARY KEY,
    title VARCHAR(255),
    content CLOB,
    author VARCHAR(100)
);
-- 插入示例数据
INSERT INTO articles (id, title, content, author) VALUES
(1, '达梦数据库入门', '达梦数据库是一款国产数据库管理系统，具有高性能、高可用性和高安全性等特点。本文介绍了达梦数据库的基本概念、安装和配置方法。', '张三'),
(2, '全文索引详解', '本文详细介绍了达梦数据库中的全文索引创建、更新和使用方法。通过全文索引，可以高效地检索文本数据。', '李四'),
(3, '数据库优化技巧', '数据库优化是提高数据库性能的重要手段。本文分享了几种常见的数据库优化技巧，包括索引优化、查询优化等。', '王五');

-- 创建全文索引（使用中文最多分词器）
CREATE CONTEXT INDEX idx_articles_content ON articles (content)
LEXER CHINESE_FP_LEXER
SYNC TRANSACTION;

使用全文检索

达梦使用CONTAINS谓词进行全文检索，支持多种查询方式：
基本查询

-- 简单关键词检索
SELECT * FROM articles WHERE CONTAINS(content, '达梦数据库');
-- 短语检索
SELECT * FROM articles WHERE CONTAINS(content, '数据库管理系统');

布尔运算

-- AND运算：同时包含多个关键词
SELECT * FROM articles WHERE CONTAINS(content, '全文索引 AND 检索');
-- OR运算：包含任意关键词
SELECT * FROM articles WHERE CONTAINS(content, '优化 OR 性能');
-- AND NOT运算：包含前者但不包含后者
SELECT * FROM articles WHERE CONTAINS(content, '数据库 AND NOT 安装');

混合条件查询
全文检索可以与其他查询条件结合使用：

SELECT * FROM articles 
WHERE CONTAINS(content, '数据库优化') 
AND author = '王五'
AND create_time > '2023-01-01';

索引维护与删除
索引更新

-- 完全更新（重建索引）
ALTER CONTEXT INDEX idx_articles_content ON articles REBUILD;
-- 增量更新（只更新变更数据）
ALTER CONTEXT INDEX idx_articles_content ON articles INCREMENT;

索引删除

-- 删除全文索引
DROP CONTEXT INDEX idx_articles_content ON articles;
注意：删除索引会同时移除所有相关的辅助表和数据字典信息，操作不可回滚。

4 达梦全文索引的高级特性

分布式全文检索

达梦启智分布式全文检索系统支持PB级海量数据管理，提供以下高级特性：
弹性扩展能力：扁平化架构支持集群化部署，节点间完全对等，无单点故障。
混合索引机制：支持结构化、半结构化和非结构化数据的统一检索。
多引擎机制：融合检索引擎、分布式并行计算和索引分片技术。
高可用性：支持系统线性扩展，新增节点可同时提升性能和存储容量。

多字段索引与复合查询

达梦支持在多列上创建全文索引，实现跨字段的统一检索：

-- 多字段全文索引
CREATE CONTEXT INDEX idx_articles_full ON articles (title, content, author) LEXER CHINESE_FP_LEXER;

检索结果高亮显示

达梦启智系统支持在检索结果中高亮显示关键词，提升用户体验。

5 性能优化与最佳实践

分词器选择策略

根据应用场景选择合适的分词器：
图片.png

索引更新策略

实时更新：对数据时效性要求高的场景，使用SYNC TRANSACTION。
定时增量更新：对时效性要求一般的场景，使用定时任务执行增量更新。
定期完全更新：数据大规模变更后，或系统故障后执行完全更新。

查询优化建议

避免模糊查询：全文索引不支持LIKE风格的模糊匹配。
词序敏感度：达梦全文检索对词序有一定敏感性，建议尝试不同词序组合。
结果集限制：结合分页技术限制返回结果数量，提高性能。
索引覆盖：尽量让查询条件覆盖索引列，避免回表查询。

常见问题与解决方案：

1.索引不同步问题
问题描述：数据更新后，检索结果未及时更新。
解决方案：确保定期执行索引更新操作，或使用SYNC TRANSACTION选项。
2.中文分词不如预期
问题描述：中文分词结果不符合预期，影响检索效果。
解决方案：尝试不同的分词器，或调整查询策略。
3.性能下降
问题描述：随着数据量增加，检索性能下降。
解决方案：考虑使用达梦启智分布式全文检索系统，支持水平扩展。

6 应用场景与案例

垂直搜索引擎

达梦全文索引适用于构建垂直搜索引擎，如电商网站商品搜索、网站文章检索等。通过全文索引，可以实现百万级数据的秒级响应。
示例：电商商品搜索

-- 商品表全文索引
CREATE CONTEXT INDEX idx_products ON products(name, description, tags)
LEXER CHINESE_FP_LEXER
SYNC TRANSACTION;

-- 商品搜索查询
SELECT * FROM products 
WHERE CONTAINS(name, '智能手机')
AND price BETWEEN 1000 AND 3000
AND category = '电子产品';

日志分析系统

处理大量日志数据时，全文索引可以快速定位关键错误信息：

-- 日志表全文索引
CREATE CONTEXT INDEX idx_logs ON server_logs(log_content)
LEXER DEFAULT_LEXER;

-- 查找特定错误
SELECT * FROM server_logs 
WHERE CONTAINS(log_content, 'NullPointerException')
AND log_time >= SYSDATE - 1;

内容管理系统

为博客、网站站点等内容管理系统提供搜索功能：

-- 文章检索
SELECT * FROM articles 
WHERE CONTAINS(title, '数据库优化') OR CONTAINS(content, '数据库优化')
ORDER BY publish_time DESC
LIMIT 10;

7 总结

达梦数据库的全文索引功能提供了强大的文本检索能力，通过合理的分词算法、倒排索引结构和更新机制，能够满足各种场景下的文本搜索需求。随着达梦启智分布式全文检索系统的推出，更进一步支持了海量数据的处理和高可用性需求。

在实际应用中，开发者应根据具体场景选择合适的分词器、更新策略和查询方式，以达到最佳的检索效果和性能表现。未来，随着自然语言处理技术的发展，达梦全文索引有望集成更智能的分词和语义分析功能，提供更接近人类自然语言的查询体验。

达梦数据库全文索引详解