现在的位置: 首页 > 综合 > 正文

Nutch内容过滤的实现

2013年08月06日 ⁄ 综合 ⁄ 共 939字 ⁄ 字号 评论关闭

Nutch插件机制非常好,它给我们提供了爬取各个步骤的接口,使我们能够自己定制想要的功能,关于nutch插件编写的例子请看我

之前的一篇文章,这里主要介绍下如何通过插件方式对爬取的内容进行过滤。我把需要过滤的内容以关键词的形式存储在数据库中

,爬取时从数据库中提取到内存中,当建立索引时,如果网页包含有需要过滤的内容,则丢弃该网页。要实现索引过滤就必须实现

org.apache.nutch.indexer.IndexingFilter这个接口,参考代码如下:

抱歉!评论已关闭.