现在的位置: 首页 > 搜索技术 > 正文

搜索引擎的爬虫系统是什么

2020年01月07日 搜索技术 ⁄ 共 762字 ⁄ 字号 评论关闭

  从爬虫的设计角度看,优秀的爬虫应该具备高性能,好的扩展性、健壮性和友好性。从用户体验角度来说,对爬虫的工作效果评价标准包括:抓取网页的覆盖率,抓取网页的时新性和抓取网页的重要性。抓取策略,网页更新策略,暗网抓取和分布式策略是爬虫系统至关重要的四个方面内容,基本决定了爬虫系统的质量和性能。

爬虫的分类

1、垂直型爬虫

  垂直型爬虫关注特定的主题内容或属于某个行业的网页,比如对于健康网站来说,只需要从互联网上抓取和健康相关的网页内容就可以,其他行业的内容不予以考虑。不过这种特殊的需求也造成了它的技术难点,怎么识别出网页内容是否属于指定行业或者主题。而且垂直型爬虫最后需要的网页内容肯定是互联网中的一小部分网页,为了节约系统的资源,不可能把互联网上的所有网页都下载下来以后再去做特定主题网页的筛选,那么就需要爬虫在抓取阶段就能够动态的识别某个网址是否与主题相关,并尽量不去抓取无关页面,从而去节省资源。

2、批量型爬虫

  批量型爬虫有比较明确的抓取范围和目标,当爬虫达到这个设定好的目标后,就会停止抓取过程。具体的目标可能会有差异,也许是设定抓取一定数量的网页,也有可能是设定抓取的时间等。

3、增量型爬虫

  通用的商业搜索引擎基本都属于增量型爬虫,增量型爬虫会保持持续不断的抓取行为,对于抓取到的网页,要定期更新。为啥要定期更新呢?因为互联网网页是动态的,不断的进行变化,可能会新增网页,可能网页被删除,也有可能原有的网页内容被修改。你应该有那么一次在使用百度搜索网页的时候,点开某个链接,出现了404,这就说明百度对这个网页的定期更新没有做好,从而造成用户体验不好。不过对于海量的网页进行定期更新,难度是很大的,所以出现这种现象是可以理解的。

  结束语:以上就是关于搜索引擎的爬虫系统是什么的全部内容,更多内容请关注学步园。

抱歉!评论已关闭.