现在的位置: 首页 > 综合 > 正文

搜索引擎,你知道我在想什么吗?

2011年02月04日 ⁄ 综合 ⁄ 共 1245字 ⁄ 字号 评论关闭

搜索是随着信息量的增长而产生的一种信息检索的需求。在信息量少的时候是通过分类、索引、精确匹配,最后到模糊匹配等技术来为用户提供检索服务的。当面对海量的信息时,简单的分类、索引已经完全不能满足人类对信息索取的需求。所以当信息量很大时,如何减少用户的时间成本,让用户更快捷的找到目标信息就是衡量一个搜索是否可用性的主要因素。理想的搜索引擎有自己的神经元和知识库,能完成基本的逻辑推理并理解人的思维,最终满足人类信息检索的高级需求。

下面从用户的搜索行为上分析,归纳一下有哪几种类型的搜索需求。看一下用户搜索的交互过程:

1.  用户输入关键词;

2.  系统分析关键词;

3.  系统根据关键词匹配信息;

4.  系统返回搜索结果。

这里的关键是,系统怎么识别输入的关键词,然后读懂这些词的含义?例如:某用户输入“ABC”关键词。那么搜索引擎是如何对关键词进行“猜测”的呢?

    场景1:输入“ABC”,理解为“ABC”。这里系统没有进行任何思考,认为用户输入的关键词,已经可以代表用户最终需要的信息。这样的需求对于用户来说,说明是已经知道自己需要什么,这是一种显性的需求,称为“直接需求”。

    场景2:输入“ABC”,初步拆分为“ABC, AB,BC,AC,A,B,C”,然后根据已有的词库进行剔除、提炼和整合,最后系统得出“ABC, AB, A”三种结果。这里系统进行了初步思考,它通过拥有的词库知识,对关键词进行分析推理出用户需要这三种信息;最后通过模糊匹配,它把用户认为最可能要的结果找出来。这是一种相关性的需求,称为“间接需求”。

    场景3:输入“ABC”,在场景2的基础上,系统还联想出了“D, E, F”三种与“ABC”有某种内在联系的关键词。这里系统是通过联想后读懂用户的潜在思维,认为用户还可能会需要或者更需要“DEF”这种关键词的信息。这是一种隐性的需求,称为“潜在需求”。

从用户搜索行为的角度看,搜索引擎是一种属于“人工智能”的产品。搜索引擎从精确匹配、模糊匹配到联想匹配所表现出来的就是机器学习从低级到高级的一个过程。通用搜索引擎的处理过程可以分为两步:第一是信息的抓取、加工、处理、组织和存储;第二是关键词的拆分、组合和信息匹配、提炼、排序和呈现。在通用搜索引擎里面,是用一套复杂的数学模型算出一个网页价值大小的数值,即网页的权重。例如:GooglePR算法

站内搜索与通用搜索引擎最大的区别在于信息内容的类型不同。通用搜索引擎的内容是网页,站内搜索的内容是属于某个特定行业。所以,站内搜索需要有一种有区别于判断网页权重的算法来去衡量特定内容的权重的算法,我称之为“CR算法”(Content Rank)。CR算法的核心还是从多个角度分解内容,抽象出可以表述内容属性的最小单元,即语义或元数据。这个过程就是内容信息结构化的过程。大量的内容经过加工处理后,形成一个多维的内容数据仓库;有了这样的一个仓库,才能达到数据挖掘的目的,最终满足用户的不同维度的信息检索需求,给人一种蒙太奇般的用户体验。

 

抱歉!评论已关闭.