现在的位置: 首页 > 综合 > 正文

【北大天网搜索引擎TSE学习笔记】第10节——查询服务子系统/总结

2013年01月15日 ⁄ 综合 ⁄ 共 705字 ⁄ 字号 评论关闭

至此,TSE的查询服务子系统相关的内容已经全部介绍完毕,从下载编译源代码、搭建TSE环境,到原理介绍、源代码分析全部进行了详细的介绍。第9节中提到的网页快照和网页内容摘要功能,由于TSE系统中实现的非常简单,所以没有展开详细说明,但是在实际的搜素引擎系统中是非常重要的,读者们可以自行了解。


下面谈谈我自己的感受,看完TSE的查询服务子系统的源代码实现后,让我对搜索引擎的基本原理有了很好的认识和理解,而且理解的更加透彻,而不是停留在原理层面,因为这是通过代码实现的一个简易的但是功能完全的搜索引擎。虽然相对于商业搜索引擎要精简很多,但是对于初学者学习搜索引擎的原理是非常合适的,感谢TSE的开发团队和《搜索》一书的作者。


个人觉得TSE查询服务子系统存在一些小的问题和不足,在前面的章节中也指出过,这里简单总结一下,仅供参考,如是我个人理解错误请大家批评指正。

1、第6节中提到的,当从TSE首页搜索后,结果网页中的搜索结果条目不能正确显示,统计信息中的“第几个到第几个”显示错误,已经做出解释和修改;

2、第7节中提到的,中文分词时对空格和特殊字符的处理存在问题,已经做出解释和修改;

3、第8节中提到的,搜索结果排序的问题——搜索结果中的网页没有根据重要程度排序;

4、第9节中提到的,搜索结果页面中用户点击页号显示不同的结果页时会重新进行搜索一次,而不是将结果集中对应页的内容进行显示,效率是不是非常低呢?


第1节中说过index.XXXXXX-XXXX.Linux.tar.gz对应TSE系统的预处理和查询服务子系统,即index包中不仅包括查询服务的代码,还包括预处理的代码,所以接下来将学习预处理子系统。



By:

抱歉!评论已关闭.