现在的位置: 首页 > 综合 > 正文

Lucene.Net的学习心得

2012年10月05日 ⁄ 综合 ⁄ 共 4458字 ⁄ 字号 评论关闭
文章目录

Lucene.Net

 

1.  搜索的分类:

Ø  结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。

Ø  非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等。

 

Ø 对结构化数据的搜索:如对数据库的搜索,用SQL语句。再如对元数据的搜索,如利用windows搜索对文件名,类型,修改时间进行搜索等。

Ø 对非结构化数据的搜索:如利用windows的搜索也可以搜索文件内容。                             

2.  全文检索:

先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。

      

全文检索大体分两个过程,索引创建(Indexing)搜索索引(Search)

Ø  索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。

Ø  搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。

3.  索引里面究竟存些什么?

有人可能会说,全文检索的确加快了搜索的速度,但是多了索引的过程,两者加起来不一定比顺序扫描快多少。的确,加上索引的过程,全文检索不一定比顺序扫描快,尤其是在数据量小的时候更是如此。而对一个很大量的数据创建索引也是一个很慢的过程。

然而两者还是有区别的,顺序扫描是每次都要扫描,而创建索引的过程仅仅需要一次,以后便是一劳永逸的了,每次搜索,创建索引的过程不必经过,仅仅搜索创建好的索引就可以了。

 

全文搜索相对于顺序扫描的优势之一:一次索引,多次使用。

4.  如何建立索引?

第一步:一些要索引的原文档(Document)。

为了方便说明索引创建过程,这里特意用两个文件为例:

文件一:Studentsshould be allowed to go out with their friends, but not allowed to drink beer.

文件二:My friendJerry went to school to see his students but found them drunk which is notallowed.

第二步:将原文档传给分词组件(Tokenizer)。

分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize):

1. 将文档分成一个一个单独的单词。

2. 去除标点符号。

3. 去除停词(Stop word)。

所谓停词(Stop word)就是一种语言中最普通的一些单词,由于没有特别的意义,因而大多数情况下不能成为搜索的关键词,因而创建索引时,这种词会被去掉而减少索引的大小。

英语中挺词(Stop word)如:“the”,“a”,“this”等。

对于每一种语言的分词组件(Tokenizer),都有一个停词(stop word)集合。

经过分词(Tokenizer)后得到的结果称为词元(Token)。

在我们的例子中,便得到以下词元(Token):

“Students”,“allowed”,“go”,“their”,“friends”,“allowed”,“drink”,“beer”,“My”,“friend”,“Jerry”,“went”,“school”,“see”,“his”,“students”,“found”,“them”,“drunk”,“allowed”。

第三步:将得到的词元(Token)传给语言处理组件(Linguistic Processor)。

语言处理组件(linguisticprocessor)主要是对得到的词元(Token)做一些同语言相关的处理。

对于英语,语言处理组件(Linguistic Processor)一般做以下几点:

1. 变为小写(Lowercase)。

2. 将单词缩减为词根形式,如“cars”到“car”等。这种操作称为:stemming。

3. 将单词转变为词根形式,如“drove”到“drive”等。这种操作称为:lemmatization。

Stemming 和 lemmatization的异同:

·        相同之处:Stemming和lemmatization都要使词汇成为词根形式。

·        两者的方式不同:

·        Stemming采用的是“缩减”的方式:“cars”到“car”,“driving”到“drive”。

·        Lemmatization采用的是“转变”的方式:“drove”到“drove”,“driving”到“drive”。

·        两者的算法不同:

·        Stemming主要是采取某种固定的算法来做这种缩减,如去除“s”,去除“ing”加“e”,将“ational”变为“ate”,将“tional”变为“tion”。

·        Lemmatization主要是采用保存某种字典的方式做这种转变。比如字典中有“driving”到“drive”,“drove”到“drive”,“am,is, are”到“be”的映射,做转变时,只要查字典就可以了。

·        Stemming和lemmatization不是互斥关系,是有交集的,有的词利用这两种方式都能达到相同的转换。

语言处理组件(linguistic processor)的结果称为词(Term)。

在我们的例子中,经过语言处理,得到的词(Term)如下:

“student”,“allow”,“go”,“their”,“friend”,“allow”,“drink”,“beer”,“my”,“friend”,“jerry”,“go”,“school”,“see”,“his”,“student”,“find”,“them”,“drink”,“allow”。

也正是因为有语言处理的步骤,才能使搜索drove,而drive也能被搜索出来。

第四步:将得到的词(Term)传给索引组件(Indexer)。

索引组件(Indexer)主要做以下几件事情:

1. 利用得到的词(Term)创建一个字典。

在我们的例子中字典如下:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Term

 

 

Document ID

 

 

student

 

 

1

 

 

allow

 

 

1

 

 

go

 

 

1

 

 

their

 

 

1

 

 

friend

 

 

1

 

 

allow

 

 

1

 

 

drink

 

 

1

 

 

beer

 

 

1

 

 

my

 

 

2

 

 

friend

 

 

2

 

 

jerry

 

 

2

 

 

go

 

 

2

 

 

school

 

 

2

 

 

see

 

 

2

 

 

his

 

 

2

 

 

student

 

 

2

 

 

find

 

 

2

 

 

them

 

 

2

 

 

drink

 

 

2

 

 

allow

 

 

2

 

2. 对字典按字母顺序进行排序。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Term

 

 

Document ID

 

 

allow

 

 

1

 

 

allow

 

 

1

 

 

allow

 

 

2

 

 

beer

 

 

1

 

 

drink

 

 

1

 

 

drink

 

 

2

 

 

find

 

 

2

 

 

friend

 

 

1

 

 

friend

 

 

2

 

 

go

 

 

1

 

 

go

 

 

2

 

 

his

 

 

2

 

 

jerry

 

 

2

 

 

my

 

 

2

 

 

school

 

 

2

 

 

see

 

 

2

 

 

student

 

 

1

 

 

student

 

 

2

 

 

their

 

 

1

 

 

them

 

 

2

 

3. 合并相同的词(Term)成为文档倒排(PostingList)链表。

在此表中,有几个定义:

·        Document Frequency 即文档频次,表示总共有多少文件包含此词(Term)。

·        Frequency 即词频率,表示此文件中包含了几个此词(Term)。

所以对词(Term) “allow”来讲,总共有两篇文档包含此词(Term),从而词(Term)后面的文档链表总共有两项,第一项表示包含“allow”的第一篇文档,即1号文档,此文档中,“allow”出现了2次,第二项表示包含“allow”的第二个文档,是2号文档,此文档中,“allow”出现了1次。

到此为止,索引已经创建好了,我们可以通过它很快的找到我们想要的文档。

而且在此过程中,我们惊喜地发现,搜索“drive”,“driving”,“drove”,“driven”也能够被搜到。因为在我们的索引中,“driving”,“drove”,“driven”都会经过语言处理而变成“drive”,在搜索时,如果您输入“driving”,输入的查询语句同样经过我们这里的一到三步,从而变为查询“drive”,从而可以搜索到想要的文档。

5.  如何对索引进行搜索?

    如何像Google一样,在成千上万的搜索结果中,找到和查询语句最相关的呢?

如何判断搜索出的文档和查询语句的相关性呢?

这要回到我们第四个问题:如何对索引进行搜索?

1. 索引过程:

1) 有一系列被索引文件

2) 被索引文件经过语法分析和语言处理形成一系列词(Term)。

3) 经过索引创建形成词典和反向索引表。

4) 通过索引存储将索引写入硬盘。

2. 搜索过程:

a) 用户输入查询语句。

b) 对查询语句经过语法分析和语言分析得到一系列词(Term)。

c) 通过语法分析得到一个查询树。

d) 通过索引存储将索引读入到内存。

e) 利用查询树搜索索引,从而得到每个词(Term)的文档链表,对文档链表进行交,差,并得到结果文档。

f) 将搜索到的结果文档对查询的相关性进行排序。

g) 返回查询结果给用户。

6.  Lucene.Net框架

Lucene.net是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。

让我们更细一些看Lucene.net的各组件:

让我们再详细到对Lucene API 的调用实现索引和搜索过程。

  • 索引过程如下:

       

    • 创建一个IndexWriter用来写索引文件,它有几个参数,INDEX_DIR就是索引文件所存放的位置,Analyzer便是用来对文档进行词法分析和语言处理的。  
    • 创建一个Document代表我们要索引的文档。  
    • 将不同的Field加入到文档中。我们知道,一篇文档有多种信息,如题目,作者,修改时间,内容等。不同类型的信息用不同的Field来表示,在本例子中,一共有两类信息进行了索引,一个是文件路径,一个是文件内容。其中FileReader的SRC_FILE就表示要索引的源文件。  
    • IndexWriter调用函数addDocument将索引写到索引文件夹中。
  • 搜索过程如下:
       

    • IndexReader将磁盘上的索引信息读入到内存,INDEX_DIR就是索引文件存放的位置。  
    • 创建IndexSearcher准备进行搜索。  
    • 创建Analyer用来对查询语句进行词法分析和语言处理。  
    • 创建QueryParser用来对查询语句进行语法分析。  
    • QueryParser调用parser进行语法分析,形成查询语法树,放到Query中。  
    • IndexSearcher调用search对查询语法树Query进行搜索,得到结果TopScoreDocCollector。

 

【上篇】
【下篇】

抱歉!评论已关闭.