Lucene – Similarity

现在的位置: 首页 > 综合 > 正文

Lucene – Similarity

2013年05月08日 ⁄ 综合 ⁄ 共 2321字 ⁄ 字号小中大 ⁄ 评论关闭

Similarity类实现打分（scoring）的API，它的子类实现了检索打分的算法。DefaultSimilarity类是缺省的打分的实现，SimilarityDelegator类是用于委托打分（delegating scoring）的实现，在Query.getSimilarity(Searcher)}的实现里起作用，以便覆盖（override）一个Searcher中Similarity实现类的仅有的确定方法（certain methods）。

查询q相对于文档d的分数与在文档和查询向量（query vectors）之间的余弦距离（cosing-distance）或者点乘积（dot-product）有关系（correlates to），文档和查询向量存于一个信息检索（Information Retrieval，IR）的向量空间模型（Vector Space Model，VSM）之中。一篇文档的向量与查询向量越接近（closer to），它的得分也越高（scored higher），这个分数按如下公式计算：

其中：

1. tf(t in d) 与term的出现次数有关系，定义为term t在当前打分的文档d中出现的次数。对一个给定的term，那些出现此term的次数越多的文档将获得越高的分数。缺省的tf(t in d)算法实现在DefaultSimilarity类中，公式如下：

2. idf(t) 代表逆文档频率（Inverse Document Frequency）。这个分数与逆的docFreq（出现过term t的文档数目）有关系，numDocs是总的文档数目。这个分数的意义是越不常出现的term将为最后的总分贡献更多的分数。缺省idf(t in d)算法实现在DefaultSimilarity类中，公式如下：

3. coord(q,d) 是一个评分因子，基于有多少个查询terms在特定的文档中被找到。通常一篇包含了越多的查询terms的文档将比另一篇包含更少查询terms的文档获得更高的分数。这是一个搜索时因子，是在搜索的时候起作用，它在Similarity对象的coord(q,d)函数中计算。

4. queryNorm(q) 是一个修正因子（normalizing factor），用来使不同查询间的分数更具有可比较性（comparable）。这个因子不影响文档的排名（ranking）（因为搜索排好序的文档（ranked document）会增加相同的因数），更确切地说只是为了尝试使得不同查询条件（甚至不同索引（different indexes））之间更可比较性。这是一个搜索时因子是在搜索的时候起作用，由Similarity对象计算。缺省queryNorm(q)算法实现在DefaultSimilarity类中，公式如下：

sumOfSquaredWeights（查询的terms）是由查询Weight对象计算的，例如一个布尔（boolean）条件查询的计算公式为：

5. t.getBoost() 是一个搜索时的代表查询q中的term t的boost数值，具体指定在查询的文本中（参见查询语法），或者由应用程序调用setBoost()来指定。需要注意的是实际上没有一个直接的API来访问一个多个term的查询中的一个term 的boost值，更确切地说，多个terms在一个查询里的表示形式是多个TermQuery对象，所以查询里的一个term的boost值的访问是通过调用子查询的getBoost()方法实现的。

6. norm(t,d) 是提炼取得（encapsulate）一小部分boost值（在索引时间）和长度因子（length factor）：

document boost – 在添加文档到索引之前通过调用doc.setBoost()来设置。

Field boost – 在添加Field到文档之前通过调用field.setBoost()来设置。

lengthNorm(field) – 在文档添加到索引的时候，根据文档中该field的tokens数目计算得出，所以更短的field会贡献更多的分数。lengthNorm是在索引的时候起作用，由Similarity类计算得出。

当一篇文档被添加到索引的时候，所有上面计算出的因子将相乘起来。如果文档拥有多个相同名字的fields，所有这些fields的boost值也会被一起相乘起来：

然而norm数值的结果在被存储之前被编码成一个单独的字节。在检索的时候，这个norm字节值从索引目录中读取出来，并解码回一个norm浮点数值。这个编/解码（encoding/decoding）行为，会缩减索引的大小，这得自于（come with）精度损耗的代价（price of precision loss）- 它不保证decode(encode(x))=x，举例来说decode(encode(0.89))=0.75。还有需要注意的是，检索的时候再修改评分（scoring）的这个norm部分已近太迟了，例如，为检索使用不同的Similarity。

参考文献：

【上篇】C语言陷阱和缺陷
【下篇】简单介绍VC++6.0下如何使用压缩库ZLIB(转)

作者: 445034742

该日志由 445034742 于11年前发表在综合分类下，最后更新于 2013年05月08日.
转载请注明: Lucene – Similarity | 学步园 +复制链接

抱歉!评论已关闭.

学步园

Lucene – Similarity

作者: 445034742

书签

最新文章New

本站推荐

返回首页