人物介绍
姓名:DougCutting
个人名望:开发出开源全文检索引擎工具包Lucene。
个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。
网络上对 Doug Cutting 的评价:“他开发出卓越超群的全文检索引擎工具包(Lucene/Solr)以及为世界打开了一扇通往大数据的大门。”“开源的Lucene 以及 Hadoop 为全球创造了无数的财富以...
阅读全文
一、 百度产品里面发布
百度产品非常多,常见的可以给我们留下链接的大概有这么几个:百度知道、百度贴吧、百度空间,百度经验、智联文库等等,我的建议是做贴吧,相对来说是非常容易留下网站链接的,做长期打算的话可以注册博客圈子平台。
二、权重高的论坛顶贴发帖
这个大家都懂,我一般的做法是等新站上线准备工作完成后,然后去相关权重比较高的论坛去注册一个账号,在个性签名里面带上网站的地址,现在一般的论坛也有...
阅读全文
各大搜索引擎收录各种主流域名收录量分析
baidu#google#360#sogou(soso)
.com#>1亿#252.7亿#>1亿#>1亿
.net#>1亿#92.6亿#>1亿#>1亿
.org#=99,300,000#53亿#>1亿#>1亿
.cn#>1亿#36.7亿#>1亿#>1亿
.com.cn#>1亿#17.8亿#>1亿#=10,861,979
.net.cn#=47,300,000#=54,900,000#=82,900,000#=13,305,867
.org.cn#=22,800,000#=61,500,000#=40,100,000#=4,884,365
.cc#=61,800,000#3.98亿#...
阅读全文
CSDN新版个人空间不再显示注册日期,到搜索引擎快照备份下,呵呵
好像来CSDN也挺久了,不过没什么创举。。。普通人呵呵。。。
http://my.csdn.net/yangzhenping
阅读全文
当你写英文句子的时候,有多大可能你是世界上第一个这么写的呢?基本上不太可能,除非你写错了。实际上,我们写的英文句子绝大多数属于“已知英文例句”,换句话说,我们写这个句子,并不是我们的创造,而是在重复以前别人曾经说过的话。既然我们“想”了很长时间,却还是写出一个“别人曾经写过的句子”,为什么我们不开始就去“检索”那个“我想要的的句子”呢?
Sentbase就是沿着这个思路,帮助用户找出那个“我想要的句子”,提倡着一...
阅读全文
■ 全文搜索引擎
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2...
阅读全文
http://www.vifir.com/html/20080827/1703937.html
一个例子学懂搜索引擎(lucene)
来源:javaeye 作者: phz50 2008-08-27 16:44:40.0网友评论:0条 点击:8996
其实,lucene是一个很容易上手的搜索引擎框架,传统的搜索引擎,涉及到爬虫,也就是爬取网页,然后对网页进行加工,也就是索引,最后用于搜索,lucene这个框架可以很方便的帮你做到后面两个步骤,也就是索引和搜索!本文尝试通过一个例子,使大家掌握lucene...
阅读全文
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。
网络爬虫是一个自动提取网页的程序(网络蜘蛛),它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得...
阅读全文
系统架构
互联网在近10年的得到飞速发展,互联网正在逐渐深入人们的生活,改变人们的生活。互联网经济也经历了风风雨雨,从缓慢起步到急速膨胀,从泡沫破灭到逐步回暖;从“网络广告”到“拇指经济”,从“网络游戏”到“搜索力经济”。目前,搜索引擎成为最受人们关注的焦点之一,也成为亿万富翁的制造摇篮。越来越多的公司都希望在搜索引擎这座金矿中挖到筐金子,其中许多人会选择拥有自己的搜索引擎。国内著名搜索引擎公司百度...
阅读全文