【Query处理学习笔记】搜索引擎查询推荐技术综述_中文信息学报2010_王斌

现在的位置: 首页 > 搜索技术 > 正文

上篇下篇

2014年11月14日 ⁄ 搜索技术 ⁄ 共 769字 ⁄ 字号小中大 ⁄ 评论关闭

主要内容：对通用搜索引擎的查询推荐技术的方法、评价进行了总结

具体内容：

“查询推荐”的不同英文叫法：Query Suggestion、Term Suggestion、Query Recommendation、Query Substitution、Query Rewriting

查询推荐的任务：找出和用户查询相似的query，以便更好地表达用户查询意图，供用户便捷输入

三种技术方法：

1. 基于文档的方法：通过处理query搜索出来的文档，以此作为反馈，进一步理解用户意图，扩充query

（1）全局文档分析：方法如题目

（2）局部文档分析：说一个更通用的名字，是伪相关反馈，用搜索结果的前N篇文章作为文档集合，扩展query，从伪相关文档中进行降维是一个难点，LCA等

（3）基于语言学资源的分析：说白了就是用wordnet或者hownet或者wiki来做同义词扩展

2. 基于日志的方法：日志作为用户的点击行为的记录，能够忠实的反映用户的真实意图。

（1）基于session的方法

简单地说，就是用户搜了什么之后还搜索了什么。往往最后搜索的那个query是能够满足用户当时需求的query。

这个方法，session的判定是个难点

（2）基于click的方法：点击模型

<query, click1, click2....>，这样的query和点击向量组成的数据结构，可以用一些距离函数（如：余弦距离）来计算query之间的相似度

这种方法，用户click的url很多，造成向量的维度很多，降维仍然是一个问题，两种降维途径：1. 聚类；2. 矩阵分解

（3）基于时间分布的方法

即统计query的时间分布，如：在情人节那天搜索“巧克力”的人会比较多。不过这个一般只能作为补充。

评价方法：

基本思路还是人工建立评测集合（或者找国际标准评测集合，如trec），然后算准确率、召回率、NDCG等

抱歉!评论已关闭.

学步园