现在的位置: 首页 > 综合 > 正文

介绍几本搜索引擎的基础书

2012年12月24日 ⁄ 综合 ⁄ 共 3048字 ⁄ 字号 评论关闭

介绍几本搜索引擎的书给大家

我觉得要想研究搜索引擎,以下三本是目前为止最好的书,我们期待有更好的书以飨读者,我也将为你做些引介。我后面还会为大家介绍些
关于无线搜索方面的书,请大家多多关注。

1、书名:开发自己的搜索引擎 Lucene 2.0+Heritrix-(附光盘)
   作 者:邱哲
【内容简介】
本书详细介绍了如何应用Lucene进行搜索引擎开发,通过学习本书,读者可以完成构建一个企业级的搜索引擎网站。.
全书共分为14章,内容包括搜索引擎与信息检索基础,Lucene入门实例,Lucene索引的建立,使用Lucene构建搜索,Lucene的排序,Lucene的分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式和Google Search API,爬虫Heritrix,综合实例之准备篇,综合实例之HTMLParser篇,综合实例之DWR篇,综合实例之Web编。..
本书是国内第一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过详细的对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。本书适合Java程序员和从事计算机软件开发的其他编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。
由于目前市面上从技术层面介绍搜索引擎的书并不多,即使有,也大多停留在理论阶段,而非搜索引擎的开发过程。因此,可以说本书是国内第一本详细介绍搜索引擎开发过程的图书。
(1)采用最新的Lucene 2.0。以前大家用的1.4.3版本,而最新的Lucene 2.0重写了很多API,内部的实现方法也有了很大优化。本书的代码都是在2.0版本下调试通过的,这样可以帮助读者了解Lucene的更多新功能。
(2)配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!
(3)着重解决开发人员头痛的问题。本书的目的是指导项目实践,因此没有罗列各个API的用法,而是对常见的开发问题进行深入探讨,比如本书的第7章,是专门为解决“Word,Excel和PDF文件如何解析”这个问题而设置的。
(4)内容新颖,前卫实用。本书介绍了Compass、Heritrix、DWR和HTMLParser等内容。在搜索引擎开发的过程中,这些均为相当重要且实用的技术,笔者经过自身实践将它们展现给读者,希望能让读者在学习Lucene的同时开拓视野。
光盘特色:
配有一个完整的搜索引擎案例。这个案例有很强的实用价值,只需稍加修改,就能应用于实际项目,市场价值在30000元以上!...

2、书 名:搜索引擎:原理、技术与系统
   作 者:李晓明
【内容简介】
本书系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述,到一个小型简单搜索引擎具体细节的实现,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后介绍了面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。 本书可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料,对广大从事网络技术、Web站点的管理、数字图书馆、Web挖掘等研究和应用开发的科技人员也有很高的参考价值。
【目录信息】

前言
第一章引论
第一节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些茂名的搜索引擎
第二章 WEB搜索引擎工作原理和体系结构
第一节 基本要求
第二节 见面搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第三章 WEB信息的搜集
第一节 引言
第二节 网页搜集
第三节 多道搜集程序并行工作
第四节 如何避免网页的重复搜集
第五节 如何首先搜集重要的网原则页
搜集
第七节 本章小结

3、《lucene in action中文版》
作者: (美)高斯帕那(Gospodnetic,O.),(美)哈特赫(Hatcher,E.) 著,谭鸿 等译
内容提要 :
本书深入浅出地介绍了Lucene——一个开源的使用Java语言编写的全文搜索引擎开发包。它通过浅显的语言、大量的图注、丰富的代码示例,以及清晰的结构为读者呈现出作为优秀开源项目的Lucene所体现的强大功能,且Lucene是从网上可以得到的最好的开源Java搜索引擎。全书共10章,分为两大部分。第1部分Lucene的核心,着重于Lucene的核心API介绍,并按照把Lucene集成到程序中的顺序来组织;第2部分Lucene的应用,通过对Lucene内置工具的介绍,展示了Lucene技术的高级应用和在各种程序语言的移植。
本书既可作为学习材料,又可以作为参考手册。本书适合于已经熟悉基本Java编程的读者,以及希望能够把强大的搜索功能加入到自己的应用程序中的开发者。对于从事搜索引擎工作的工程技术人员,以及在Java平台下进行各类软件开发的人员和编程爱好者,本书也有很好的学习参考价值。
编辑推荐 :
  本书深入浅出地介绍了Lucene——一个开源的使用Java语言编写的全文搜索引擎开发包。它通过浅显的语言、大量的图注、丰富的代码示例,以及清晰的结构为读者呈现出作为优秀开源项目的Lucene所体现的强大功能。全书共10章,分为两大部分。第1部分Lucene的核心,着重于Lucene的核心API介绍,并按照把Lucene集成到程序中的顺序来组织;第2部分Lucene的应用,通过对Lucene内置工具的介绍,展示了Lucene技术的高级应用和在各种程序语言上的移植。
  本书既可作为学习材料,又可以作为参考手册。它适合于已经熟悉基本Java编程的读者,以及希望能够把强大的搜索功能加入到其应用程序中的开发者。对于从事搜索引擎工作的工程技术人员,以及在Java平台上进行各类软件开发的人员和编程爱好者,本书也有很好的学习参考价值。
目录 :
推荐序
译者序
前言1
前言2
致谢
关于此书
第1部分 Lucene的核心
第1章 初识Lucene
1.1 信息组织和访问的发展历程
1.2 理解Lucene
1.2.1 Lucene是什么
1.2.2 Lucene能做什么
1.2.3 Lucene的历史
1.2.4 使用Lucene的组织
1.2.5 Lucene移植:Perl、Python、C++、NET及Ruby版本
1.3 索引和搜索
1.3.1 什么是索引,为什么如此重要?
1.3.2 什么是搜索
1.4 Lucene实践:一个应用实例
1.4.1 创建一个索引
1.4.2 搜索一个索引
1.5 理解索引过程的核心类
1.5.1 Index Writer
1.5.2 Direcory
1.5.3 Analyzer
1.5.4 Document
1.5.5 Field
1.6 理解搜索过程的核心类
1.6.1 IndexSearcher
1.6.2 Term
1.6.3 Query
1.6.4 TermQuery
1.6.5 Hits
1.7 可选择的同类产品
1.7.1 信息检索工具库
1.7.2 索引与搜索应用程序
1.7.3 在线资源
1.8 小结
第2章 索引
第3章 为应用程序添加搜索功能
第4章 分析
第5章 高级搜索技术
第6章 扩展搜索
第2部分 Lucene的应用
第7章 对常用格式的文档进行解析
第8章 Lucene的相关工具及其扩展
第9章 Lucene的移植
第10章 案例分析
附录A 安装Lucene
附录B Lucene索引文件格式
附录C 资源

抱歉!评论已关闭.