人物介紹
姓名:DougCutting
個人名望:開發出開源全文檢索引擎工具包Lucene。
個人簡介/主要榮譽:除了 Lucene,還開發了著名的網路爬蟲工具 Nutch,分散式系統基礎架構Hadoop,這些大師級作品都是開源的。目前任職 Apache 軟體基金會主席。
網路上對 Doug Cutting 的評價:「他開發出卓越超群的全文檢索引擎工具包(Lucene/Solr)以及為世界打開了一扇通往大數據的大門。」「開源的Lucene 以及 Hadoop 為全球創造了無數的財富以...
閱讀全文
一、 百度產品裡面發布
百度產品非常多,常見的可以給我們留下鏈接的大概有這麼幾個:百度知道、百度貼吧、百度空間,百度經驗、智聯文庫等等,我的建議是做貼吧,相對來說是非常容易留下網站鏈接的,做長期打算的話可以註冊博客圈子平台。
二、權重高的論壇頂貼發帖
這個大家都懂,我一般的做法是等新站上線準備工作完成後,然後去相關權重比較高的論壇去註冊一個賬號,在個性簽名裡面帶上網站的地址,現在一般的論壇也有...
閱讀全文
各大搜索引擎收錄各種主流域名收錄量分析
baidu#google#360#sogou(soso)
.com#>1億#252.7億#>1億#>1億
.net#>1億#92.6億#>1億#>1億
.org#=99,300,000#53億#>1億#>1億
.cn#>1億#36.7億#>1億#>1億
.com.cn#>1億#17.8億#>1億#=10,861,979
.net.cn#=47,300,000#=54,900,000#=82,900,000#=13,305,867
.org.cn#=22,800,000#=61,500,000#=40,100,000#=4,884,365
.cc#=61,800,000#3.98億#...
閱讀全文
CSDN新版個人空間不再顯示註冊日期,到搜索引擎快照備份下,呵呵
好像來CSDN也挺久了,不過沒什麼創舉。。。普通人呵呵。。。
http://my.csdn.net/yangzhenping
閱讀全文
當你寫英文句子的時候,有多大可能你是世界上第一個這麼寫的呢?基本上不太可能,除非你寫錯了。實際上,我們寫的英文句子絕大多數屬於「已知英文例句」,換句話說,我們寫這個句子,並不是我們的創造,而是在重複以前別人曾經說過的話。既然我們「想」了很長時間,卻還是寫出一個「別人曾經寫過的句子」,為什麼我們不開始就去「檢索」那個「我想要的的句子」呢?
Sentbase就是沿著這個思路,幫助用戶找出那個「我想要的句子」,提倡著一...
閱讀全文
■ 全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁資料庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出「蜘蛛」程序,對一定IP地址範圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。
另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2...
閱讀全文
http://www.vifir.com/html/20080827/1703937.html
一個例子學懂搜索引擎(lucene)
來源:javaeye 作者: phz50 2008-08-27 16:44:40.0網友評論:0條 點擊:8996
其實,lucene是一個很容易上手的搜索引擎框架,傳統的搜索引擎,涉及到爬蟲,也就是爬取網頁,然後對網頁進行加工,也就是索引,最後用於搜索,lucene這個框架可以很方便的幫你做到後面兩個步驟,也就是索引和搜索!本文嘗試通過一個例子,使大家掌握lucene...
閱讀全文
隨著網路的迅速發展,萬維網成為大量信息的載體,如何有效地提取並利用這些信息成為一個巨大的挑戰。搜索引擎(Search Engine),例如傳統的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。
網路爬蟲是一個自動提取網頁的程序(網路蜘蛛),它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得...
閱讀全文
系統架構
互聯網在近10年的得到飛速發展,互聯網正在逐漸深入人們的生活,改變人們的生活。互聯網經濟也經歷了風風雨雨,從緩慢起步到急速膨脹,從泡沫破滅到逐步回暖;從「網路廣告」到「拇指經濟」,從「網路遊戲」到「搜索力經濟」。目前,搜索引擎成為最受人們關注的焦點之一,也成為億萬富翁的製造搖籃。越來越多的公司都希望在搜索引擎這座金礦中挖到筐金子,其中許多人會選擇擁有自己的搜索引擎。國內著名搜索引擎公司百度...
閱讀全文