现在的位置: 首页 > 综合 > 正文

java 简单爬虫

2017年10月29日 ⁄ 综合 ⁄ 共 292字 ⁄ 字号 评论关闭

实现一个简单的单线程爬虫其实还是比较简单的,一个网络资源采集httpclient或者URL获取网页源文件,但是需要进行定项的资源爬取还是有一定的知识的,刚开始想做能做成一个框架模板,后来发现还真不是那么回事,因为随着你的URL更新,你的定制内的爬虫种子序列也是要更新,又因为我的所有数据都是写在mongo里面,因此我得如nutch那样,对数据更新的时间做一个记录,如去某个表最后更新的时间作为最后的modifyTime,然后Task定时的获取modifyTime,如发现这个存在小于某个设定的时间间隔的数据更新时,通知对应crawlerTask任务更新队列,这样就能达到持续的爬取效果

抱歉!评论已关闭.