现在的位置: 首页 > 搜索技术 > 正文

深入了解搜索引擎技术

2020年01月09日 搜索技术 ⁄ 共 862字 ⁄ 字号 评论关闭

  搜索引擎是传统IR技术在Web环境中的应用。一般来说,搜索引擎是一种用于帮助用户在Internet上查询信息的搜索工具,它以一定的策略在Internet中搜索,发现信息,对信息进行理解,提取,组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

搜索引擎的体系结构

  典型的搜索引擎结构一般由以下三个模块组成:信息采集模块(Crawler),索引模块(Indexer),查询模块(Searcher)。

  Crawler:从web中采集网页数据

  Indexer:对Crawler采集数据进行分析生成索引。

  Searcher:接受查询请求,通过一定的查询算法获取查询结果,返回给用户。

Crawler

  Crawler负责页面信息的采集,工作实现基于以下思想:既然所有网页都可能链接到其他网站,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。Crawler首先从待访问URL队列中获取URLs,根据URL从中抓取网页数据,然后对网页进行分析,从中获取所有的URL链接,并把它们放到待访问的URL队列中,同时将已访问URL移至已访问的URL队列中。不断重复上面的过程。

Indexer

  搜索引擎在完成用户的检索请求时,并不是即时的检索Web数据,而是从预先采集的网页数据中获取。要实现对采集页面的快速访问,必须通过某种检索机制来完成。

  页面数据可以用一系列关键字来表示,从检索毙敌来说,这些关键词描述了页面的内容,只要找到页面,便可以找到其中的关键词,反过来,通过关键词对页面创建索引,便可以根据关键字快速的找到相应的网页。

Searcher

  Searcher是直接与用户进行交互的模块,在接口上有多种实现的方式,常见的主要是Web方式。

  Searcher通过某种接口方式,接受用户查询,对查询进行分词(stemming)处理,获取查询关键字。通过Indexer获取与查询关键字匹配的网页数据,经过排序后返回给用户。

  结束语:以上就是关于深入了解搜索引擎技术的全部内容,更多内容请关注学步园。

抱歉!评论已关闭.