轉自新河南網的空間
成搜索引擎從
1.網頁下載,
2.文本分析,
3.索引生成,
4.索引存儲,
5.信息檢索 等各個層面的應用。
討論網站:http://www.chengshibianyuan.cn
一個搜索引擎的好壞的評價標準:
1.相關性
2.數據量
3.查全率
4.相應速度
5.更新速度
互聯網搜索引擎的五個主要環節,系統主要模塊包括
1.網頁信息的抓取;
1.深度優先搜集策略
2.IP段掃描搜索策略
3.廣度優先搜集策略
2.網頁內容的分析;
1....
閱讀全文
【轉】百度和Google搜索引擎收錄網站區別
WWW.DBIT.CN 2008-10-22 8:30:59 來源:東北IT網 編輯:葉子
根據搜索引擎當前的發展情況比較和分析一下百度和Google這兩大搜索引擎在收錄網站方面的區別。
首頁規則
搜索引擎的索引更新速度是衡量搜索質量的一個重要的參數,對於大型網站(比如門戶新聞網站)以及其他更新量大的網站,百度和Google的索引速度都很快,基本上都能做到當...
閱讀全文
主要內容:對通用搜索引擎的查詢推薦技術的方法、評價進行了總結
具體內容:
「查詢推薦」的不同英文叫法:Query Suggestion、Term Suggestion、Query Recommendation、Query Substitution、Query Rewriting
查詢推薦的任務:找出和用戶查詢相似的query,以便更好地表達用戶查詢意圖,供用戶便捷輸入
三種技術方法:
1. 基於文檔的方法:通過處理query搜索出來的文檔,以此作為反饋,進一步理解用戶意圖,擴充query
(1)全...
閱讀全文
根據潛在客戶或目標用戶在搜索引擎中找到你的網站時輸入的語句,產生了關鍵字 (Keywords)的概念,這不僅是搜索引擎優化的核心,也是整個搜索引擎營銷都必須圍繞的核心
關鍵字的選擇
首先確定你的核心關鍵字,再圍繞核心關鍵字進行排列組合產生關鍵片語或短句。對企業、商家而言,核心關鍵字就是他們的經營範圍,如產品/服務名稱、行業定位,以及企業名稱或品牌名稱等。總結起來,選擇關鍵字有以下技巧:
1、站在客戶的角...
閱讀全文
一般的網頁設計都由網頁設計師完成。設計師設計網站往往僅從美觀、創意和易用的角度考慮,這對於一個期望獲得搜索引擎排名優秀的商業網站來說,已經遠遠不夠了,網站策劃人員至少應該為設計師遞交一份需求備忘錄,提醒在設計中需要配合和注意的環節。
目錄結構和URL
URL是統一資源定位,即每個網頁的網址、路徑。網站文件的目錄結構直接體現於URL。清晰簡短的目錄結構和規範的命名不僅有利於用戶體驗和網址傳播,更是搜索引...
閱讀全文
google的秘密入口
一.大家試過沒有,使用google,如果加用了超級代理,會有多十倍的東東可搜…
二.下面是google的一些秘密入口 http://www.google.com/microsoft 微軟風格的入口 http://www.google.com/mac MAC風格的入口 http://www.google.com/linux Linux風格的入口 http://www.google.com/bsd FreeBSD風格的入口 Google有各種語言的版本,下面這些語言可能實在是稀罕了點兒 ...
閱讀全文
關鍵字:垂直搜索引擎中文分詞 nutch tomcat linux
1.說明
建立簡單的垂直搜索引擎。
通過實際操作信息搜索軟體,環境配置,了解主要模塊的構成,及交互方式。通過修改搜索軟體,了解軟體架構,介面及插件等運作方式。
通過對分詞部分的修改,了解了分詞原理及主流的中文分詞技術及其應用。
2.目標
利用信息檢索工具,搜索http://beijing.cncn.com/網站中的景點介紹網頁,對其進行索引,使用戶可通過關鍵字查詢,快速定位...
閱讀全文
GOOGLE網站登錄 http://www.google.com/intl/zh-CN/add_url.html
百度網站登錄 http://www.baidu.com/search/url_submit.html
Yahoo 網站登錄>http://search.help.cn.yahoo.com/h4_4.html
Live網站登錄http://search.msn.com/docs/submit.aspx?FORM=WSDD2
Dmoz 網站登錄 http://www.dmoz.com/World/Chinese_Simplified
Coodir網站目錄登錄http://www.coodir.com/accounts/addsite.asp
Alexa 網站登錄 http://www.alexa...
閱讀全文
1.引言
萬維網WWW(World Wide Web)是一個巨大的,分布全球的信息服務中心,正在以飛快的速度擴展。1998年WWW上擁有約3.5億個文檔[14],每天增加約1百萬的文檔[6],不到9個月的時間文檔總數就會翻一番[14]。WEB上的文檔和傳統的文檔比較,有很多新的特點,它們是分布的,異構的,無結構或者半結構的,這就對傳統信息檢索技術提出了新的挑戰。
傳統的WEB搜索引擎大多數是基於關鍵字匹配的,返回的結果是包含查詢項的...
閱讀全文