现在的位置: 首页 > 综合 > 正文

网络搜索引擎原理简介

2013年08月15日 ⁄ 综合 ⁄ 共 1179字 ⁄ 字号 评论关闭

据中国互联网络信息中心统计,目前搜索引擎是仅次于电子邮件的第二大Internet的应用。搜索引擎技术的研究与应用逾来逾广,正成为计算机工业界和学术界争相研究和开发的对象。

搜索引擎虽然品种繁多、功能不一,但是它们的总体结构和基本的工作原理都是一样的。

每个搜索引擎都有三个部分组成: (1)在Internet上采集信息的"机器人";(2)对采集到的信息进行索引并建立索引库的索引器;(3)完成用户提交查询请求的网页检索器。
图1.1 搜索引擎总体结构图
1、"机器人"
  "机器人"实际上是一些基于Web的程序,通过请求Web站点上的HTML网页来对采集该HTML网页,它遍历指定范围内的整个Web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果为"机器人"建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,"机器人"将能够采集到整个Web空间的网页。
2、索引器
  索引器负责将"机器人"在Web空间采集到的信息建立索引并存放在索引数据库中,索引数据库可以采用通用的大型数据库,如ORACLE、Sybase等,也可以自己定义文件格式进行存放。为了保证索引数据库信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性,索引数据库更新是通过启动"机器人"对Web空间重新搜索来实现的。
3、网页检索器
  当用户使用搜索引擎查找信息时,网页检索器接收用户提交的查询条件,并完成对用户查询请求的响应。网页检索器是一个在Web服务器上运行的CGI程序,它首先接收用户提交的查询条件,根据查询条件对索引库进行查找并将查询到的结果返回给用户。
  有的系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级(Page Rank),返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。典型的如大名鼎鼎的Google(http://www.google.com)就是采取这种策略,它的PageRank方法还获得国际专利,因为PageRank的客观性,从而使得由它搜索出来的结果比较公正,不会因为哪家公司使用伎俩,而导致它的网页排在结果的前边,而是根据计算出来的等级值,排在相应的位置。
  国内目前做得最为出色的应该首推百度(www.baidu.com),在中文信息搜索方面,其速度不亚于google,虽然其信息覆盖没有达到google那样的规模。(注:google最早由美国斯坦福大学计算机科学系的几名博士生研制出来,目前的信息量约20亿7千万个Web页面,支持世界上大多数流行语言,在这方面,百度颇有不及)。

抱歉!评论已关闭.