现在的位置: 首页 > 综合 > 正文

微软对象级别的垂直搜索技术:所搜即所得(来源: 互联网周刊)

2013年08月12日 ⁄ 综合 ⁄ 共 2188字 ⁄ 字号 评论关闭

 来源: 互联网周刊

  通用搜索引擎在某些方面的表现越来越差强人意。那么,如何让搜索结果变得更加一目了然?微软亚洲研究院的聂再清和文继荣研究员,向《互联网周刊》介绍了一种由他们研究成功的“对象级别的垂直搜索技术”(Object-level Vertical Search)。

本刊记者 李洋

小李要买一部智能手机,想了解几款产品的介绍、价位和评价等信息。但是当他用通用搜索引擎查找信息时,却得到了五花八门的结果。令人头疼的是,他必须挨个点进链接,注册一堆论坛账号,还要自己把各种看到的信息综合起来,才能获得关于这部手机的完整资料。

是的,通用搜索引擎在某些方面的表现越来越差强人意。那么,如何让搜索结果变得更加一目了然?微软亚洲研究院的聂再清和文继荣研究员,向《互联网周刊》介绍了一种由他们研究成功的“对象级别的垂直搜索技术”(Object-level Vertical Search)。

一目了然的结果

这个听起来有点学术化的技术其实并不难理解。当你使用这种搜索引擎时,它列出的结果将是最终对象的集合,而不是杂乱的网页列表。一切的一切都围绕着你所搜索的那个对象。

比如,当你搜索“多普达”时,系统列出的不是包含此信息的各种页面标题、内容检索,而是一个个多普达手机—除型号、图片等直观信息外,每个产品下还列出介绍、价格、用户评价等相关信息,就像我们在购物网站中看到的陈列页面一样,但内容要远比某个网站所陈列的丰富,因为是来自整个互联网。搜索引擎所列出的对象内容并不是通过人工来整理的,而是计算机通过自动抓取、自动分类而形成的“虚拟”页面。

这项技术目前已经获得初步应用。在微软亚洲研究院作为实验的学术搜索(libra.msra.cn/)中,当你输入“Data Mining”(数据挖掘)这一关键词,便可获得相关论文的排名列表。结果以论文为对象进行排列,每篇论文下都可列出被引用次数和作者;点进每篇论文的链接,可以看到该论文的介绍、可供浏览和下载的原始链接,以及相关的参考论文。

与此同时,在论文的结果列表左侧,还有相关作者、会议、期刊的排名。如果再按“作者”(Author)搜索,系统会自动排列出“数据挖掘”领域内最权威的科学家名单,与此类似的,你还可以进行相关的会议、期刊和学术社区等方面的搜索。目前,微软的该学术搜索还仅限于计算机领域。

与基于文字的搜索结果相比,基于对象的搜索结果显然更加一目了然,实现更加垂直而专业的搜索效果。目前,这项来自微软亚洲研究院的技术,正在应用到Windows Live产品搜索引擎(Http://products.live.com)的测试版开发中。以产品作为对象的搜索结果中,用户还可以按照相关度、价格进行排名,或按照一些热点针对某家网站进行搜索。

据聂再清研究员介绍,经过第一个月的试运行,该系统已经自动地找到了10万家

电子商务网站和数千万个网页,并从这些网页中抽取出了上亿条商品对象信息—这一数字是任何一个商家平台无法独立实现的,在未来它有可能成为世界上最全的产品目录库。面向对象的搜索引擎无疑充当了跨越众多购物网站的基础平台。

核心技术

那么,这项技术是如何实现的?细心的读者可能从前面的介绍中看出端倪,这是区别于传统搜索引擎思路的一个新的体系结构。

首先,它要依靠网页爬虫技术,抓取某一个特定领域(比如一个照相机产品)中的所有相关网页。在获得这些页面后,系统要对这些网页中所包含的对象信息类型进行分类,也就是说,它要分辨某个网页究竟是一篇论文、一个博客页面,还是一个商品信息页面。

在完成了这项工作后,系统就可以分门别类地将内容集成到对象信息仓库中。而这项工作需要事前进行大量的训练和模型组建。比如,在一个商品页面的训练中,要告诉系统什么情况下是商品名称、商品图片、价格;通过此类学习之后,系统就可以自动找到它所要的关键内容。

在这一领域的研究中,曾有人在HTML代码上做过尝试,却都不太成功,因为代码的编写总是千差万别的,但最后它们所实现的页面显示却几乎大同小异。在发现了这一点后,微软亚洲研究院的研究员们在这一过程中巧妙地结合了视觉分析技术,设计一些算法让计算机能够像人类一样,看到一个页面的“兴趣中心”,并智能地做出判断。

在进行了抓取、分类、抽取之后,垂直搜索引擎就可以利用这些结构化的对象信息,来应对用户的提问,进行各种智能分析和挖掘工作。

推翻现有架构

这样一种技术是具有革命性的。用户可以利用它进行各种垂直类的深度搜索。它在推翻即有架构之后,无疑要比传统搜索引擎经受更多的考验。

比如,要保证结构化信息的高质量、全面性、准确度。并且,由于这一搜索引擎的数据库,要存储互联网上以及各地离线数据库中的相关对象信息,对存储和运行规模的可伸缩性也提出了挑战,这一技术必须拥有一个能够存储数以十万计的“超级数据库”,并且保证其算法能够足够快速地进行检索。

在给用户带来便利的同时,新的搜索引擎带来了一系列围绕技术规则改变而衍生的商业模式潜在变化。比如,在基于对象的搜索引擎中,传统的网页排名方法(PageRank)已不适用。微软亚洲研究院的研究员们提出了流行度排级(PopRank)。

这项所搜即所得的技术具有很强的通用性,除了产品搜索、学术搜索外,还可以应用到黄页、博客、人物、工作职位、饭馆、机票搜索等多种垂直搜索领域,而其与电子商务的结合、新广告形式的衍生,将是一个崭新的话题。 

抱歉!评论已关闭.