現在位置: 首頁 > 搜索技術 > 文章
2015年10月30日 搜索技術 ⁄ 共 3441字 評論關閉
人物介紹 姓名:DougCutting 個人名望:開發出開源全文檢索引擎工具包Lucene。 個人簡介/主要榮譽:除了 Lucene,還開發了著名的網路爬蟲工具 Nutch,分散式系統基礎架構Hadoop,這些大師級作品都是開源的。目前任職 Apache 軟體基金會主席。 網路上對 Doug Cutting 的評價:「他開發出卓越超群的全文檢索引擎工具包(Lucene/Solr)以及為世界打開了一扇通往大數據的大門。」「開源的Lucene 以及 Hadoop 為全球創造了無數的財富以...
閱讀全文
2015年07月21日 搜索技術 ⁄ 共 1376字 評論關閉
搜索引擎作為所有互聯網應用里技術含量最高的一種,包含了豐富的架構和演算法知識。出於對網路爬蟲的興趣,現就對搜索引擎的相關技術進行學習。 1、搜索引擎的演變 搜索引擎的技術發展可以概括為「更全、更快、更准」,其在信息的相關性、可信賴度以及用戶的真正需求這幾個因素上不斷發展壯大。從最早的人工分類目錄,主要關注信息的可信賴度,但缺乏豐富的信息和關聯;到文本檢索,重點關注查詢關鍵詞和網頁內容的相關性,但難以...
閱讀全文
2015年04月19日 搜索技術 ⁄ 共 666字 評論關閉
一、 百度產品裡面發布 百度產品非常多,常見的可以給我們留下鏈接的大概有這麼幾個:百度知道、百度貼吧、百度空間,百度經驗、智聯文庫等等,我的建議是做貼吧,相對來說是非常容易留下網站鏈接的,做長期打算的話可以註冊博客圈子平台。 二、權重高的論壇頂貼發帖 這個大家都懂,我一般的做法是等新站上線準備工作完成後,然後去相關權重比較高的論壇去註冊一個賬號,在個性簽名裡面帶上網站的地址,現在一般的論壇也有...
閱讀全文
2015年03月01日 搜索技術 ⁄ 共 616字 評論關閉
各大搜索引擎收錄各種主流域名收錄量分析     baidu#google#360#sogou(soso) .com#>1億#252.7億#>1億#>1億 .net#>1億#92.6億#>1億#>1億 .org#=99,300,000#53億#>1億#>1億 .cn#>1億#36.7億#>1億#>1億 .com.cn#>1億#17.8億#>1億#=10,861,979 .net.cn#=47,300,000#=54,900,000#=82,900,000#=13,305,867  .org.cn#=22,800,000#=61,500,000#=40,100,000#=4,884,365 .cc#=61,800,000#3.98億#...
閱讀全文
CSDN新版個人空間不再顯示註冊日期,到搜索引擎快照備份下,呵呵 好像來CSDN也挺久了,不過沒什麼創舉。。。普通人呵呵。。。 http://my.csdn.net/yangzhenping
閱讀全文
2015年01月14日 搜索技術 ⁄ 共 307字 評論關閉
當你寫英文句子的時候,有多大可能你是世界上第一個這麼寫的呢?基本上不太可能,除非你寫錯了。實際上,我們寫的英文句子絕大多數屬於「已知英文例句」,換句話說,我們寫這個句子,並不是我們的創造,而是在重複以前別人曾經說過的話。既然我們「想」了很長時間,卻還是寫出一個「別人曾經寫過的句子」,為什麼我們不開始就去「檢索」那個「我想要的的句子」呢? Sentbase就是沿著這個思路,幫助用戶找出那個「我想要的句子」,提倡著一...
閱讀全文
2014年12月14日 搜索技術 ⁄ 共 1442字 評論關閉
■ 全文搜索引擎   在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁資料庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出「蜘蛛」程序,對一定IP地址範圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的資料庫。   另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2...
閱讀全文
2014年12月03日 搜索技術 ⁄ 共 14208字 評論關閉
http://www.vifir.com/html/20080827/1703937.html 一個例子學懂搜索引擎(lucene) 來源:javaeye 作者: phz50 2008-08-27 16:44:40.0網友評論:0條 點擊:8996   其實,lucene是一個很容易上手的搜索引擎框架,傳統的搜索引擎,涉及到爬蟲,也就是爬取網頁,然後對網頁進行加工,也就是索引,最後用於搜索,lucene這個框架可以很方便的幫你做到後面兩個步驟,也就是索引和搜索!本文嘗試通過一個例子,使大家掌握lucene...
閱讀全文
2014年11月23日 搜索技術 ⁄ 共 1138字 評論關閉
       隨著網路的迅速發展,萬維網成為大量信息的載體,如何有效地提取並利用這些信息成為一個巨大的挑戰。搜索引擎(Search Engine),例如傳統的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網的入口和指南。       網路爬蟲是一個自動提取網頁的程序(網路蜘蛛),它為搜索引擎從萬維網上下載網頁,是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始,獲得...
閱讀全文
2014年11月22日 搜索技術 ⁄ 共 22087字 評論關閉
系統架構     互聯網在近10年的得到飛速發展,互聯網正在逐漸深入人們的生活,改變人們的生活。互聯網經濟也經歷了風風雨雨,從緩慢起步到急速膨脹,從泡沫破滅到逐步回暖;從「網路廣告」到「拇指經濟」,從「網路遊戲」到「搜索力經濟」。目前,搜索引擎成為最受人們關注的焦點之一,也成為億萬富翁的製造搖籃。越來越多的公司都希望在搜索引擎這座金礦中挖到筐金子,其中許多人會選擇擁有自己的搜索引擎。國內著名搜索引擎公司百度...
閱讀全文