Nutch距离一个商业应用的搜索引擎还有多远

现在的位置: 首页 > 综合 > 正文

Nutch距离一个商业应用的搜索引擎还有多远

2013年09月18日 ⁄ 综合 ⁄ 共 2288字 ⁄ 字号小中大 ⁄ 评论关闭

了解nutch的人基本上对这个开源的系统都是比较欣赏的，起码在国内是这样的，也很有多搜索网站是基于这个系统修改过来的，不过要做得好，做得真正是一个商业化的搜索，这个修改就不是一朝一夕的事情，也不是修修剪剪那么简单了。作为一个通用的全网级别的搜索引擎架构，nutch(lucene)确实为广大人民群众提供了一块大大的蛋糕，为进入搜索这个行业大大降低了门槛。那么它距商业的搜索到底有多远呢？以我的个人观点来谈一下。

一、总体功能
一个专业的网络搜索引擎至少包含3部分即抓取、处理和搜索。下面是它们的一般功能：
抓取：抓取（蜘蛛、爬虫、crawler、spider等）程序负责爬行特定网络（也可能是整个网络），把网络上的页面和其它需要的文件下载到本地来。目前的难点是web2.0的普及导致的js分析和身份认证等问题。
处理：处理（分类、信息抽取、数据挖掘、classify、information extraction、data mining等）程序对抓回来的页面进行分析，比如，对网站的内容进行分类、对新闻页面的新闻信息进行提取、页面模版生成、对各个网站之间的关系进行计算等等。
搜索：搜索（information retrieve）程序负责把文档填充到数据库，然后根据查询字符串到数据库中寻找最相关的文档展现给用户。

二、信息抓取
网络信息抓取包含了见面抓取、文本文件抓取和其它文件地抓取。普通的信息抓取利用基本的html页面分析器(htmlParser、NeckoHtml、 JTidy等)来解析页面，得到其中的信息。基本上两点，一个是抓取，一个是分析。
抓取这一步要处理身份论证、要支持多种协议等等的，nutch在这里默认的插件使用的是nekohtml，效果还可以。但是nutch对html分析的结果的文本是把页面里所有的文本都合在一起(其中有一个开关来控制内层锚文本是否加上)作为总文本输出，所以这样页面上所有的噪音都没有去除。
另一个是分析，分析一个html，最强的要数ie、firefox等浏览器了，在这一步上，nutch默认的htmlParser的处理能力是不可同日而语的。现在ajax盛行，对于js的处理也是一个重大的问题，现在nutch对js是视而不见的。

三、信息处理
对于信息的处理是nutch最薄弱的环节了，同时也是这个行业里的“宝地”，胜败决定就在这里。这里包括分类、信息抽取、数据挖掘、classify、information extraction、data mining等等。
在默认的nutch组件里有cluster这个包，是用来为搜索结果进行聚类用的，nutch默认的聚类是用开源Carrot2 的后缀树算法做Web文本聚类
还有ontology (本体),是人工智能范畴内的概念。Ontology研究热点的出现与Semantic Web的提出和发展直接相关，借助Ontology中的推理规则，使应用系统具有一定的推理能力。默认的nutch也带了一个简单的ontology的应用系统--HP的jena。但是对于一个商业应用来说这些仅仅是一个模具性质的。
nutch为这方面准备了最最基本的接口，其它的就得自己搞定了，比如机器学习(ML)、自然语言处理(NLP)、数据分析(DA)。。而

四、搜索
nutch其实从功能上来讲是由爬虫和搜索两大部分组成的，搜索是lucene来挑梁的。所以这部分的局限其实就是lucene的局限了。lucene也可能从功能上分为两大部分，一个是索引，一个是查询。对于这部分的研究已经很久了，就是把用户最想要的文档返回给用户，对于搜索引擎而言，速度是非常重要的。索引，专业点说，包含2种：前向索引和反向索引（倒排索引，inverted index）。前者表示的是某个文档里面的所有词语，后者表示的是包含某个词语的所有文档。对应到Lucene上面，它的前向索引可以认为是Term Vectors（词语向量）相关文件，包含.tvx、.tvd和.tvf这3种文件。前向索引没有什么好评论的，它一般只是做为重组原始数据时候的依据，其构建十分简单明了。反向索引对应到Lucene上就是index（索引）。
Lucene把索引划分成一个一个的segment（块，其实是一个小索引），直观的说，当有一批新数据到达的时候，我们一般给其构建成一个新的segment，这是因为修改原来的segment的代价很高（并不是说一定很高，只是lucene采用的文件结构无法简单的加入新的文档）。当一个index包含的segment太多的时候，查找性能就很差了（因为一次查询需要查询多个segment），需要进行segment的合并。在搜索方面nutch对lucene作了外部的处理，一是可以进行分布式搜索，每个节点只返回最高分值的结果，最近再合并；另一方面是对查询进行缓冲，不过只有一级缓冲--LRU(nutch的cache策略及cache策略研究)。

五、结论
仅仅从搜索引擎的构架来看，Lucene(Nutch)缺失的一环是信息的处理。信息的处理恰恰是整个搜索引擎中最核心的技术。所以说对于现在这个行业化、垂直化的搜索时代，nutch 的先天不足就已经是致命的了，但是这并不是不可挽回的，nutch的插件式架构，开放的系统逻辑等等特点，已经为开发者打开了窗户。nutch比较通用的处理逻辑，加上灵活的插件式架构，给我们定制它插上了翅膀。但是它也仅仅是一个框架，里面的任何一个细节都会让你头痛不已(比如ML，NLP)!所以真正的难点也就是这些让人头痛的地方。

【上篇】机器翻译系统的搭建(Ubuntu10.04+Moses)
【下篇】高考百日冲刺誓师大会讲话（二）

作者: beachwear

该日志由 beachwear 于11年前发表在综合分类下，最后更新于 2013年09月18日.
转载请注明: Nutch距离一个商业应用的搜索引擎还有多远 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

Nutch距离一个商业应用的搜索引擎还有多远

作者: beachwear

书签

最新文章New

本站推荐

返回首页