搜索引擎的结构清晰、分工明确。按照各自的功能划分,可以划分为四大体系结构。
一、抓取系统(又称为下载系统)
搜索引擎的工作组件为爬虫,爬虫通过在网页上爬寻,来抓取和下载各种类型的网页。并且保持对万维网变化的同步。这也是搜索引擎工作的第一步。
二、分析系统
通过抓到的网页,分析系统来对这些不同类型的网页进行分析,并进行pr和分词计算。
三、索引系统
将分析处理后的网页进行索引入库。
四、查询系统
分析用户提交的查询请求,然后从索引库中检索出相关的网页并将网页进行排序,以查询结果的形式返回给用户。
搜索引擎简要结构图: