网络爬虫是什么

现在的位置: 首页 > 综合 > 正文

RSS

上篇下篇

网络爬虫是什么

2020年01月06日 ⁄ 综合 ⁄ 共 1165字 ⁄ 字号小中大 ⁄ 评论关闭

　　作为程序员，相信大家对“爬虫”这个词并不陌生，身边常常会有人提这个词，在不了解它的人眼中，会觉得这个技术很高端很神秘。不用着急，我们的爬虫系列就是带你去揭开它的神秘面纱，探寻它真实的面目。

爬虫是什么

　　网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

　　通俗地讲，我们把互联网比作一张大蜘蛛网，每个站点资源比作蜘蛛网上的一个结点，爬虫就像一只蜘蛛，按照设计好的路线和规则在这张蜘蛛网上找到目标结点，获取资源。

为什么使用爬虫

　　为什么我们需要使用爬虫呢？

　　大家可以想象一下一个场景：你非常崇拜一个微博名人，对他的微博非常着迷，你想把他十年来微博上的每一句话摘抄下来，制作成名人语录。这个时候你怎么办呢？手动去Ctrl+C和Ctrl+V吗？这种方法确实没错，数据量小的时候我们还可以这样做，但是数据成千上万的时候你还要这样做吗？

　　我们再来想象另一个场景：你要做一个新闻聚合网站，每天需要定时去几个新闻网站获取最新的新闻，我们称之为RSS订阅。难道你会定时去各个订阅网站复制新闻吗？恐怕个人很难做到这一点吧。

　　上面两种场景，使用爬虫技术可以很轻易地解决问题。所以，我们可以看到，爬虫技术主要可以帮助我们做两类事情：一类是数据获取需求，主要针对特定规则下的大数据量的信息获取；另一类是自动化需求，主要应用在类似信息聚合、搜索等方面。

爬虫的分类

　　从爬取对象来看，爬虫可以分为通用爬虫和聚焦爬虫两类。

　　通用网络爬虫又称全网爬虫（ScalableWebCrawler），爬行对象从一些种子URL扩充到整个Web，主要为搜索引擎和大型Web服务提供商采集数据。这类网络爬虫的爬取范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低。例如我们常见的百度和谷歌搜索。我们输入关键词，它们会从全网去找关键词相关的网页，并且按照一定的顺序呈现给我们。

　　聚焦网络爬虫（FocusedCrawler），是指选择性地爬取那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬取特定的网页，爬取的广度会小很多。例如我们需要爬取东方财富网的基金数据，我们只需要针对东方财富网的页面制定规则爬取就行。

　　通俗地讲，通用爬虫就类似于一只蜘蛛，需要寻找特定的食物，但是它不知道蜘蛛网的哪个节点有，所以它只能从一个节点开始寻找，遇到节点就看一下，如果有食物就获取食物，如果这个节点指示某某节点有食物，那它就顺着指示去寻找下个节点。而聚焦网络爬虫就是这只蜘蛛知道哪个节点有食物，它只需要规划好路线到达那个节点就能获取到食物。

　　结束语：以上就是关于网络爬虫是什么的全部内容，更多内容请关注学步园。

【上篇】SQL判断字段列是否存在的方法
【下篇】SQL Server高级内容之case语法函数概述及使用

作者: admin

该日志由 admin 于4年前发表在综合分类下，最后更新于 2020年01月06日.
转载请注明: 网络爬虫是什么 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

网络爬虫是什么

爬虫是什么

为什么使用爬虫

爬虫的分类

作者: admin

书签

最新文章New

本站推荐

返回首页