现在的位置: 首页 > 综合 > 正文

基于JAVA技术的搜索引擎的研究与实现

2014年01月25日 ⁄ 综合 ⁄ 共 7127字 ⁄ 字号 评论关闭

基于 

目录............................................................................................................................................................................ 1

摘要............................................................................................................................................................................ 3

第一章............................................................................................................................................................. 4

第二章........................................................................................................................................ 5

2.1........................................................................................................................................................... 5

2.2............................................................................................................................................... 5

2.2.1服务器............................................................................................................................................. 6

2.3........................................................................................................................... 6

2.4................................................................................................................................................................... 6

第三章................................................................................................................................................ 7

3.1........................................................................................................................................... 7

3.2................................................................................................................................... 7

3.2.1HTML........................................................................................................................................ 7

3.2.2 SpiderSpider................................................................................................................................. 11

3.2.5............................................................................................................................. 12

3.3................................................................................................................................................................ 14

第四章lucene.................................................................................................................. 15

4.1Lucene............................................................................................................................ 15

4.2Lucene的原理分析............................................................................................................................ 15

4.2.2 Lucene.................................................................................................................................. 17

4.3LuceneSpider的结合........................................................................................................................ 18

4.4................................................................................................................................................................ 21

第五章TomcatWeb................................................................................................................. 22

5.1TomcatWeb............................................................................................................ 22

5.2................................................................................................................................................ 22

5.3.1Tomcat................................................................................................................................. 25

5.4................................................................................................................................................................ 25

第六章.......................................................................................................................................... 26

6.1................................................................................................................................................................ 26

6.2.................................................................................................................................... 26

6.2.1............................................................................................................................ 27

6.3................................................................................................................................................................ 27

参考文献................................................................................................................................................................. 28

 

网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、

新闻搜索引擎是从指定的

本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。

 

 

Abstract

The resources in the internet are abundant, but it is adifficult job to search some useful information. So a search engine is the bestmethod to solve this problem. This article fist introduces the system structureof search engine based on the internet in detail, then gives a minuteexplanation form Spider search, engine and web server. In order to understandthe technology more deeply, I have programmed a news search engine by myself.

The news search engine is explained and searchedaccording to hyperlink from a appointed web page, then indexs every searchedinformation and adds it to the index database. Then after receiving thecustomers' requests from the web server, it soon searchs the right news formthe index engine,

In the chapter of introducing search engine, it is notonly elaborate the core technology, but also combine with the moderncode,pictures included, easy to understand.

 

 

面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。

搜索引擎技术伴随着

第一代搜索引擎出现于

大约在

2000

搜索引擎一词在国内外因特网领域被广泛使用,然而他的含义却不尽相同。在美国搜索引擎通常指的是基于因特网的搜索引擎,他们通过网络机器人程序收集上千万到几亿个网页,并且每一个词都被搜索引擎索引,也就是我们说的全文检索。著名的因特网搜索引擎包括

 

2.1

 

 

 

 

 

 

2.2

服务器

客户一般通过浏览器进行查询,这就需要系统提供

2.3

 

召回率一次搜索结果中符合用户要求的数目与用户查询相关信息的总数之比

准确率一次搜索结果中符合用户要求的数目与该次搜索结果总数之比

相关度用户查询与搜索结果之间相似度的一种度量

精确度对搜索结果的排序分级能力和对垃圾网页的抗干扰能力

 

2.4

 

网络机器人又称为

基于因特网的搜索引擎是

网络机器人还可以通过扫描

3.2

Internet

3.2.1

因为

文本:除了脚本和标签之外的所有数据 注释:程序员留下的说明文字,对用户是不可见的 简单标签:由单个表示的HTML标签 开始标签和结束标签:用来控制所包含的HTML代码

我们在进行解析的时候不用关心所有的标签,只需要对其中几种重要的进行解析即可。

超连接标签

超连接定义了

 

图像映射标签

图像映射是另一种非常重要的标签。它可以让用户通过点击图片来迁移到新的页面中。

表单标签

表单是

表格标签

表格是

我们在具体解析这些

Bot

HTMLPage构造函数 构造对象并指定用于通讯的HTTP对象

Public HTMLPage(HTTP http)  GetForms方法 获取最后一次调用Open方法检索到的表单清单  

Public Vector getForms()  GetHTTP方法 获取发送给构造函数的HTTP对象  

Public HTTP getHTTP()  GetImage方法 获取指定页面的图片清单  

Public Vector getImage()  GetLinks方法 获取指定页面的连接清单  

Public Vector getLinks()  Open方法 打开一个页面并读入该页面,若指定了回调对象则给出所有该对象数据  

Public void open(String url,HTMLEditorKit.ParserCallback a)

 

3.2.2

网络机器人必须从一个网页迁移到另一个网页,所以必须找到该页面上的超连接。程序首先解析网页的

递归结构

递归是在一个方法中调用自己本身的程序设计技术。虽然比较容易实现但耗费内存且不能使用多线程技术,故不适合大型项目。

非递归结构

这种方法使用队列的数据结构,当

虽然这里只描述了一个队列,但在实际编程中用到了四个队列,他们每个队列都保存着同一处理状态的

 

等待队列 在这个队列中,URL等待被Spider程序处理。新发现的URL也被加入到这个队列中

处理队列 Spider程序开始处理时,他们被送到这个队列中

错误队列 如果在解析网页时出错,URL将被送到这里。该队列中的URL不能被移入其他队列中

完成队列 如果解析网页没有出错,URL将被送到这里。该队列中的URL

抱歉!评论已关闭.