使用WebCollector的redis插件,进行爬取。(使用redis数据库进行任务管理)
/**
* RedisCrawler是WebCollector的一个插件,将WebCollector的任务管理交
* 给redis数据库,使WebCollector可以进行海量网页的爬取
*/
public class MyCrawler extends RedisCrawler{
public MyCrawler(String tableName,String ip,int port){
super(tableName,ip,port);
}
@Override
public void visit(Page page){
System.out.println(page.getDoc().title());
}
/*运行程序前请开启red......
阅读全文