深入了解搜索引擎技术

现在的位置: 首页 > 搜索技术 > 正文

深入了解搜索引擎技术

2020年01月09日 ⁄ 搜索技术 ⁄ 共 862字 ⁄ 字号小中大 ⁄ 评论关闭

　　搜索引擎是传统IR技术在Web环境中的应用。一般来说，搜索引擎是一种用于帮助用户在Internet上查询信息的搜索工具，它以一定的策略在Internet中搜索，发现信息，对信息进行理解，提取，组织和处理，并为用户提供检索服务，从而起到信息导航的目的。

搜索引擎的体系结构

　　典型的搜索引擎结构一般由以下三个模块组成：信息采集模块（Crawler），索引模块（Indexer），查询模块（Searcher）。

　　Crawler：从web中采集网页数据

　　Indexer：对Crawler采集数据进行分析生成索引。

　　Searcher：接受查询请求，通过一定的查询算法获取查询结果，返回给用户。

Crawler

　　Crawler负责页面信息的采集，工作实现基于以下思想：既然所有网页都可能链接到其他网站，那么从一个网站开始，跟踪所有网页上的所有链接，就有可能检索整个互联网。Crawler首先从待访问URL队列中获取URLs，根据URL从中抓取网页数据，然后对网页进行分析，从中获取所有的URL链接，并把它们放到待访问的URL队列中，同时将已访问URL移至已访问的URL队列中。不断重复上面的过程。

Indexer

　　搜索引擎在完成用户的检索请求时，并不是即时的检索Web数据，而是从预先采集的网页数据中获取。要实现对采集页面的快速访问，必须通过某种检索机制来完成。

　　页面数据可以用一系列关键字来表示，从检索毙敌来说，这些关键词描述了页面的内容，只要找到页面，便可以找到其中的关键词，反过来，通过关键词对页面创建索引，便可以根据关键字快速的找到相应的网页。

Searcher

　　Searcher是直接与用户进行交互的模块，在接口上有多种实现的方式，常见的主要是Web方式。

　　Searcher通过某种接口方式，接受用户查询，对查询进行分词（stemming）处理，获取查询关键字。通过Indexer获取与查询关键字匹配的网页数据，经过排序后返回给用户。

　　结束语：以上就是关于深入了解搜索引擎技术的全部内容，更多内容请关注学步园。

【上篇】Ubuntu 16.04 LTS软件包管理基本操作
【下篇】快还要更快，让PHP 7 运行更加神速

作者: admin

该日志由 admin 于4年前发表在搜索技术分类下，最后更新于 2020年01月09日.
转载请注明: 深入了解搜索引擎技术 | 学步园 +复制链接

抱歉!评论已关闭.

学步园