不同规则的中文分词对Lucene索引的影响

现在的位置: 首页 > 综合 > 正文

RSS

不同规则的中文分词对Lucene索引的影响

2012年06月02日 ⁄ 综合 ⁄ 共 1264字 ⁄ 字号小中大 ⁄ 评论关闭

不同规则的中文分词对Lucene索引的影响

田春峰

在中文全文索引中为了建立反向索引需要对文档中的句子进行切分，相关理论请参见车东的介绍。

在lucene 1.3 以后的版本中支持中文建立索引了，他默认的切分规则是按一个个汉字分的。例子见后。

这里主要对比以下3种中文切分对lucene 索引的影响。

第一种：默认的单字切分；

第二种：二元切分（见车东的文章）；

第三种：按照词义切分（使用小叮咚的逆向最大切分法）。

上面3种切分的效果如下：

原句："搜索引擎的发展历史证明，没有做不到只有想不到，让人们更方便准确的获取信息是搜索引擎的使命。"

Lucene默认分词结果：

org.apache.lucene.analysis.standard.StandardAnalyzer:

[搜] [索] [引] [擎] [的] [发] [展] [历] [史] [证] [明] [没] [有] [做] [不] [到] [只] [有] [想] [不] [到] [让] [人] [们] [更] [方] [便] [准] [确] [的] [获] [取] [信] [息] [是] [搜] [索] [引] [擎] [的] [使] [命]

二元切分结结果：

org.apache.lucene.demo.CJKAnalyzer:

[搜索] [索引] [引擎] [擎的] [的发] [发展] [展历] [历史] [史证] [证明] [没有] [有做] [做不] [不到] [到只] [只有] [有想] [想不] [不到] [让人] [人们] [们更] [更方] [方便] [便准] [准确] [确的] [的获] [获取] [取信] [信息] [息是] [是搜] [搜索] [索引] [引擎] [擎的] [的使] [使命]