Solr开发文档

现在的位置: 首页 > 综合 > 正文

RSS

2013年05月01日 ⁄ 综合 ⁄ 共 6809字 ⁄ 字号小中大 ⁄ 评论关闭

转载纯属为了方便个人学习，作者原文请参考http://www.blogjava.net/hoojo/archive/2011/10/21/361747.html

Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器，它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中，将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。

开发环境：

System：Windows

WebBrowser：IE6+、Firefox3+

JDK：1.6+

JavaEE Server：tomcat5.0.2.8、tomcat6

IDE：eclipse、MyEclipse 8

开发依赖库：

JavaEE 5、solr 3.4

个人博客：

http://hoojo.cnblogs.com

http://blog.csdn.net/IBM_hoojo

email: hoojo_@126.com

一、配置和安装solr

1、首先去apache官方网站下载solr，下载地址

http://labs.renren.com/apache-mirror//lucene/solr/3.4.0/

目前最新的是3.4的版本

2、下载后解压目录如下

client是一个ruby实现的示例，这个我们暂时不管

contrib有一些功能模块是需要的jar包

dist是打包发布好的工程war包

docs是帮助文档

example是示例，里面有打包部署好的solr工程示例和servlet容器jetty。如果你没有tomcat可以直接使用Jetty服务器部署你的solr示例。

3、发布、部署solr示例

A、利用自带的Jetty服务器

首先在dos命令中进入到下载好的solr解压的目录apache-solr-3.4.0的example目录

cd E:\JAR\solr\apache-solr-3.4.0\example

然后利用java命令，启动jetty服务器。Java –jar start.jar

启动Jetty成功后，如果没有看到错误消息，你可以看到端口信息。

如果你的端口冲突了，你可以到解压的solr示例包的example/etc的jetty.xml中，修改端口port信息。

</Set>

B、利用tomcat发布solr示例

将下载的solr解压后，进入apache-solr-3.4.0\dist目录，将里面的solr.war放到D:\tomcat-6.0.28\webapps目录下，启动tomcat会自动解压。（当然，你也可以手动解压放到wabapps目录下）

当然你也可以设置context指向你的solr工程，在D:\tomcat-6.0.28\conf\Catalina\localhost目录加入solr.xml配置，配置如下：

<Context docBase="D:\solr.war" debug="0" crossContext="true" >

    <Environment name="solr/home" type="java.lang.String" value="D:\solr" override="true" />

</Context>

上面的2步都是一样的，这样还没有完。启动后你可能会看到如下错误：

我们需要将一些配置和index库文件也放到解压好的solr工程下。我们到解压的apache-solr-3.4.0\example\solr目录下，将里面的conf和data目录copy到刚才我们部署的D:\tomcat-6.0.28\webapps\solr工程目录下。或是copy到你的solr.xml中的context指定的路径下工程目录中。

重启tomcat就ok了。

4、这个时候你就可以访问http://localhost:8983/solr/admin/你就可以看到如下界面：

在Query String中输入solr，点击Search就可以查询到相应的结果，结果以xml形式返回。当然你也可以设置返回数据类型为json。

<?xml version="1.0" encoding="UTF-8"?>

<response>

<lst name="responseHeader">

  <int name="status">0</int>

  <int name="QTime">0</int>

  <lst name="params">

    <str name="indent">on</str>

    <str name="start">0</str>

    <str name="q">solr</str>

    <str name="version">2.2</str>

    <str name="rows">10</str>

  </lst>

</lst>

<result name="response" numFound="1" start="0">

  <doc>

    <arr name="cat"><str>software</str><str>search</str></arr>

    <arr name="features"><str>Advanced Full-Text Search Capabilities using Lucene</str><str>Optimized for High Volume Web Traffic</str><str>Standards Based Open Interfaces - XML and HTTP</str>

      <str>Comprehensive HTML Administration Interfaces</str><str>Scalability - Efficient Replication to other Solr Search Servers</str><str>Flexible and Adaptable with XML configuration and Schema</str><str>Good unicode support: h¨¦llo (hello with an accent over the e)</str></arr>

    <str name="id">SOLR1000</str>

    <bool name="inStock">true</bool>

    <date name="incubationdate_dt">2006-01-17T00:00:00Z</date>

    <str name="manu">Apache Software Foundation</str>

    <str name="name">Solr, the Enterprise Search Server</str>

    <int name="popularity">10</int>

    <float name="price">0.0</float>

  </doc>

</result>

</response>

二、Solr理论

1、 solr基础

因为 Solr 包装并扩展了 Lucene，所以它们使用很多相同的术语。更重要的是，Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。

在 Solr 和 Lucene 中，使用一个或多个 Document 来构建索引。Document 包括一个或多个 Field。Field 包括名称、内容以及告诉 Solr 如何处理内容的元数据。例如，Field 可以包含字符串、数字、布尔值或者日期，也可以包含你想添加的任何类型，只需用在solr的配置文件中进行相应的配置即可。Field 可以使用大量的选项来描述，这些选项告诉 Solr 在索引和搜索期间如何处理内容。现在，查看一下表 1 中列出的重要属性的子集：

属性名称	描述
Indexed	Indexed Field 可以进行搜索和排序。你还可以在 indexed Field 上运行 Solr 分析过程，此过程可修改内容以改进或更改结果。
Stored	stored Field 内容保存在索引中。这对于检索和醒目显示内容很有用，但对于实际搜索则不是必需的。例如，很多应用程序存储指向内容位置的指针而不是存储实际的文件内容。

2、 solr索引操作

在 Solr 中，通过向部署在 servlet 容器中的 Solr Web 应用程序发送 HTTP 请求来启动索引和搜索。Solr 接受请求，确定要使用的适当 SolrRequestHandler，然后处理请求。通过 HTTP 以同样的方式返回响应。默认配置返回 Solr 的标准 XML 响应。你也可以配置 Solr 的备用响应格式，如json、csv格式的文本。

索引就是接受输入元数据（数据格式在schema.xml中进行配置）并将它们传递给 Solr，从而在 HTTP Post XML 消息中进行索引的过程。你可以向 Solr 索引 servlet 传递四个不同的索引请求：

add/update 允许您向 Solr 添加文档或更新文档。直到提交后才能搜索到这些添加和更新。

commit 告诉 Solr，应该使上次提交以来所做的所有更改都可以搜索到。

optimize 重构 Lucene 的文件以改进搜索性能。索引完成后执行一下优化通常比较好。如果更新比较频繁，则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。

delete 可以通过 id 或查询来指定。按 id 删除将删除具有指定 id 的文档；按查询删除将删除查询返回的所有文档。

Lucene中操作索引也有这几个步骤，但是没有更新。Lucene更新是先删除，然后添加索引。因为更新索引在一定情况下，效率没有先删除后添加的效率好。

3、搜索

添加文档后，就可以搜索这些文档了。Solr 接受 HTTP GET 和 HTTP POST 查询消息。收到的查询由相应的 SolrRequestHandler 进行处理。

solr查询参数描述：

参数	描述	示例
q	Solr 中用来搜索的查询。有关该语法的完整描述，请参阅参考资料。可以通过追加一个分号和已索引且未进行断词的字段（下面会进行解释）的名称来包含排序信息。默认的排序是 score desc，指按记分降序排序。	q=myField:Java AND otherField:developerWorks; date asc 此查询搜索指定的两个字段，并根据一个日期字段对结果进行排序。
start	将初始偏移量指定到结果集中。可用于对结果进行分页。默认值为 0。	start=15 返回从第 15 个结果开始的结果。
rows	返回文档的最大数目。默认值为 10。	rows=25，返回25个结果集
fq	提供一个可选的筛选器查询。查询结果被限制为仅搜索筛选器查询返回的结果。筛选过的查询由 Solr 进行缓存。它们对提高复杂查询的速度非常有用。	任何可以用 q 参数传递的有效查询，排序信息除外。
hl	当 hl=true 时，在查询响应中醒目显示片段。默认为 false。参看醒目显示参数（见参考资料）。	hl=true
fl	作为逗号分隔的列表指定文档结果中应返回的 Field 集。默认为 “*”，指所有的字段。“score” 指还应返回记分。	*,score
sort	排序，对查询结果进行排序，参考	sort=date asc,price desc

4、 solr模式

上面有提到schema.xml这个配置，这个配置可以在你下载solr包的安装解压目录的apache-solr-3.4.0\example\solr\conf中找到，它就是solr模式关联的文件。打开这个配置文件，你会发现有详细的注释。

模式组织主要分为三个重要配置

types 部分是一些常见的可重用定义，定义了 Solr（和 Lucene）如何处理 Field。也就是添加到索引中的xml文件属性中的类型，如int、text、date等

fileds是你添加到索引文件中出现的属性名称，而声明类型就需要用到上面的types

其他配置有

uniqueKey 唯一键，这里配置的是上面出现的fileds，一般是id、url等不重复的。在更新、删除的时候可以用到。

defaultSearchField默认搜索属性，如q=solr就是默认的搜索那个字段

solrQueryParser查询转换模式，是并且还是或者（and/or）

schema配置类型

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">

    <analyzer type="index">

        <tokenizer class="solr.WhitespaceTokenizerFactory" />

        <filter class="solr.StopFilterFactory" ignoreCase="true"

            words="stopwords.txt" />

        <filter class="solr.WordDelimiterFilterFactory"

            generateWordParts="1" generateNumberParts="1" catenateWords="1"

            catenateNumbers="1" catenateAll="0" />

        <filter class="solr.LowerCaseFilterFactory" />

        <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />

        <filter class="solr.RemoveDuplicatesTokenFilterFactory" />

    </analyzer>

    <analyzer type="query">

        <tokenizer class="solr.WhitespaceTokenizerFactory" />

        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"

            ignoreCase="true" expand="true" />

        <filter class="solr.StopFilterFactory" ignoreCase="true"

            words="stopwords.txt" />

        <filter class="solr.WordDelimiterFilterFactory"

            generateWordParts="1" generateNumberParts="1" catenateWords="0"

            catenateNumbers="0" catenateAll="0" />

        <filter class="solr.LowerCaseFilterFactory" />

        <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />

        <filter class="solr.RemoveDuplicatesTokenFilterFactory" />

    </analyzer>

</fieldType>

上面就是一个type了，然后你在fields配置field的时候就可以用这个type。

首先，上面的fieldType的配置中有两个analyzer，它是分词器。主要把我们的数据进行分割成一个个的词语。词干提取、停止词删除以及相似的操作都被应用于标记，然后才进行索引和搜索，导致使用相同类型的标记。

上面的应用程序的 Solr 的fieldType配置按以下步骤进行设置：

Ø 根据空白进行断词，然后删除所有的公共词（StopFilterFactory）

Ø 使用破折号处理特殊的大小写、大小写转换等等。（WordDelimiterFilterFactory）；将所有条目处理为小写（LowerCaseFilterFactory）

Ø 使用 Porter Stemming 算法进行词干提取（EnglishPorterFilterFactory）

Ø 删除所有的副本（RemoveDuplicatesTokenFilterFactory）

Schema属性、字段

<field name="id" type="string" indexed="true" stored="true"

    required="true" />

<field name="sku" type="text_en_splitting_tight" indexed="true"

    stored="true" omitNorms="true" />

<field name="name" type="text_general" indexed="true" stored="true" />

<field name="alphaNameSort" type="alphaOnlySort" indexed="true"

【上篇】S3C6410的IROM启动模式
【下篇】[PHP]进阶教程：PHP中Cookies与Sessions的创建和使用

作者: roper

该日志由 roper 于11年前发表在综合分类下，最后更新于 2013年05月01日.
转载请注明: Solr开发文档 | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

（其他合作也可洽谈）

必威体育

必威电竞

学步园