WebCollector爬虫的redis插件

返回顶部
查看留言
转到底部

现在的位置: 首页 > 综合 > 正文

WebCollector爬虫的redis插件

2018年04月10日 ⁄ 综合 ⁄ 共 906字 ⁄ 字号小中大 ⁄ 评论关闭

使用WebCollector的redis插件，进行爬取。（使用redis数据库进行任务管理）

/**
 * RedisCrawler是WebCollector的一个插件，将WebCollector的任务管理交
 * 给redis数据库，使WebCollector可以进行海量网页的爬取
 */
public class MyCrawler extends RedisCrawler{
 
    public MyCrawler(String tableName,String ip,int port){
        super(tableName,ip,port);
    }
 
    @Override
    public void visit(Page page){
        System.out.println(page.getDoc().title());
    }
         
 
    /*运行程序前请开启redis数据库*/
    public static void main(String[] args) throws Exception{
 
        /*mytest是任务名(用于区别不同爬虫),"127.0.0.1"和6379是redis数据库的ip和端口*/
        MyCrawler crawler=new MyCrawler("mytest", "127.0.0.1", 6379);
         
        /*爬取合肥工业大学新闻网*/
        crawler.addSeed("http://news.hfut.edu.cn/");
        crawler.addRegex("http://news.hfut.edu.cn/.*");
 
 
        /*过滤图片*/
        crawler.addRegex("-.*#.*");
        crawler.addRegex("-.*png.*");
        crawler.addRegex("-.*jpg.*");
        crawler.addRegex("-.*gif.*");
        crawler.addRegex("-.*js.*");
        crawler.addRegex("-.*css.*");
 
        /*设置线程数*/
        crawler.setThreads(30);
 
        /*设置是否为断点爬取模式*/
        crawler.setResumable(false);
 
        /*开始深度为5的爬取*/
        crawler.start(5);
    }
}

【上篇】精简导航——编程技术专区
【下篇】在WebCollector爬虫中，自定义http请求

作者: 728510

该日志由 728510 于6年前发表在综合分类下，最后更新于 2018年04月10日.
转载请注明: WebCollector爬虫的redis插件 | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

（其他合作也可洽谈）

必威体育

必威电竞

学步园

WebCollector爬虫的redis插件

作者: 728510

书签

最新文章New

本站推荐

返回首页