基础知识
Apache Lucene 是开发搜索类应用程序时最常用的 Java 类库,我们的框架也将基于它。为了下文更好的描述,我们需要先了解一些有关 Lucene 和搜索的基础知识。注意,本文不关注索引的文件格式、分词技术等话题。
什么是搜索和索引
从用户的角度来看,搜索的过程是通过关键字在某种资源中寻找特定的内容的过程。而从计算机的角度来看,实现这个过程可以有两种办法。一是对所有资源逐个与
关键字匹配,返回所有满足匹配...
阅读全文
最近在学习搜索引擎的一些知识,在网上下载了一本经典书籍——《走进搜索引擎》,在此和大家分享。
电子书基本信息:
《走进搜索引擎》 梁斌 著 2007年10月出版
下载地址:
http://pan.baidu.com/s/1jGooFn4
阅读全文
自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。
搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的作弊...
阅读全文
口碑public praise,指用户对品牌的评价,是品牌它触点中的一些关键指标。口碑监测指标全面描述用户(广义的服户)对品牌的评价,包括产品应用消息、企业荣誉、企业公民行为、负品牌现象、论坛与博客监测五个方面。
将口碑引入到品牌指数数据模型中并进行量化监测,是品牌指数系统3.1的一个新功能。在以互联网为特色的新媒体时代,我们需要做的不是需不需要在意口碑,而在于如何以数据方式监测、评估口碑效果,我们相信这...
阅读全文
spider是搜索引擎的必须模块.spider数据的结果直接影响到搜索引擎的评价指标.
第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目
Spier定义(关于Spider的定义,有广义和狭义两种).
狭义:利用标准的http协议根据超链和web文档检索的方法遍历万维网信息空间的软件程序.
广义:所有能利用http协议检索web文档的软件都称之为spider.
其中Protocol Gives Sites Way To Keep Out The 'Bots Jere...
阅读全文
1 介绍
项目地址:https://code.google.com/p/genetworkclient/
GeoNetwork是空间信息领域中的目录服务软件,它是一个基于Java实现的开源软件,使用Lucene实现空间资源的全文检索。
GentworkClient 是本人开发的一个Java 库,是开源软件Genetwork的客户端实现,目标是提供一个简单易用的API来添加、删除、修改和查询Genetwork中的空间资源。
2 GenetworkClient API
package cn.ac.registAService.service;
import java.util...
阅读全文
本文转自:http://blog.csdn.net/hguisu/article/details/7969757
1.概述
在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引起,他它并不能满足其特殊要求:
1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至几千的网页数量
,面对如此海量数据 ,使得数据库系统很难有效的管理。
2)数据操作简单:搜索引擎使用的数据操作简单
,一...
阅读全文
系统架构
互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活。互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破灭到逐步回暖;从“网络广告”到“拇指经济”,从“网络游戏”到“搜索力经济”。目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度...
阅读全文