現在位置: 首頁 > 搜索技術 > 文章
2014年10月30日 搜索技術, 黃專家專欄 ⁄ 共 2024字 評論關閉
現在用的 hadoop 的版本是 0.20.2-cdh3u6。 cdh 是 Cloudera 的開源版本。 使用 local 模式的時候,會出現幾個錯誤,記錄如下: 1. java.lang.NullPointerException 異常 1 2 3 4 5 6 7 java.lang.Exception: java.lang.NullPointerException at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:349) Caused by: java.lang.NullPointerException at org.apache.hadoop.mapred.pipes...
閱讀全文
2014年10月30日 搜索技術, 黃專家專欄 ⁄ 共 3830字 評論關閉
有的時候,我們在 hadoop 上的輸入可能不是一些基於行的文本,是希望自定義一些結構化的數據。這種情況,一般會選用工具將結構化的數據序列化成位元組流,存儲在磁碟上。然後在 maper 中讀取進來,反序列化即可得到原來的數據。 我們使用 google protobuf 作為這種結構化的信息傳遞的工具。 首先可以先定義 person.proto 文件 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ...
閱讀全文
2014年10月28日 搜索技術 ⁄ 共 1350字 評論關閉
   最近帶新人,問我怎麼查詢一些網站在搜索引擎中的基本信息,所以今天把這幾個簡單的命令給大家複習一下。其實這些命令和我之前的一篇文章《Google頂級搜索引擎搜索方法使用技巧大全》原理一樣,都是都是搜索引擎檢索信息方面的功能。下面入正題: site:查詢網站被索引的網頁,site: www.semshare.netlink:查詢鏈接到你的網站的網頁,link: www.semshare.netcache:網站當前在Google的緩存,cache: www.semshare.netinfo:網站...
閱讀全文
   IDE使用的MyEclipse6.5,資料庫使用MySQL 5.0.37 , 另裝了Navicat for MySQL , jdk版本是6.0     工程做完的效果圖如下,com.zly.indexManager中兩個類,分別創建索引和搜索索引,     com.zly.test.entity中是使用的實體類,分別是NewsType(新聞類型),NewsItem(新聞具體條目),PageControl(分頁實體bean) , SearchResultBean(保存搜索結果的bean).                   瀏覽和搜索的前提是有據可查,沒有數據什麼都實現不了...
閱讀全文
2014年10月26日 搜索技術 ⁄ 共 5430字 評論關閉
對於每一個做SEO優化的人員來說,最基本、最起碼必須要了解搜索引擎的工作原理,因為我們在做網站優化的時候是通過和搜索引擎打交道來實現我們網站的排名的!研究搜索引擎工作原理就很有必要了。今天我來和大家分享一下我是如何學通搜索引擎工作原理的,其實很簡單,你可以把搜索引擎工作原理模擬成一個形象的蜘蛛爬網抓蟲子的過程就可以了,具體是怎麼一個過程我可以詳解的給大家分析一下: 搜索引擎的工作原理大體上可以分...
閱讀全文
2014年10月23日 搜索技術 ⁄ 共 2036字 評論關閉
越來越多的網站,開始採用「單頁面結構」(Single-page application)。 整個網站只有一張網頁,採用Ajax技術,根據用戶的輸入,載入不同的內容。 這種做法的好處是用戶體驗好、節省流量,缺點是AJAX內容無法被搜索引擎抓取。舉例來說,你有一個網站。 http://example.com 用戶通過井號結構的URL,看到不同的內容。 http://example.com#1 http://example.com#2 http://example.com#3 但是,搜索引擎只抓取examp...
閱讀全文
2014年10月22日 搜索技術 ⁄ 共 1656字 評論關閉
對搜索引擎(百度/谷歌/雅虎)排名不友好的五種網站 搜索引擎針對不同類別的網站,判斷標準和考核得分點是不 一樣的,避免對百度排名不友好的五種網站操作 你的網站是否在這五種網站里,決定你的網站是否能獲得排 名。 1、有沒有同學看到有的網站非常高大上,很多企業網都很 炫,實際實際上不利於優化 搜索引擎不可讀 frame IF框架  大量網站都存在js、FLASH、框架,這些不是不利於優化嗎 ,這裡有個理解誤區,js要實現的效果是...
閱讀全文
2014年09月05日 搜索技術 ⁄ 共 251字 評論關閉
搜索引擎的結構清晰、分工明確。按照各自的功能劃分,可以劃分為四大體系結構。 一、抓取系統(又稱為下載系統) 搜索引擎的工作組件為爬蟲,爬蟲通過在網頁上爬尋,來抓取和下載各種類型的網頁。並且保持對萬維網變化的同步。這也是搜索引擎工作的第一步。 二、分析系統 通過抓到的網頁,分析系統來對這些不同類型的網頁進行分析,並進行pr和分詞計算。 三、索引系統 將分析處理後的網頁進行索引入庫。 四、查詢系統 ...
閱讀全文
2014年08月16日 搜索技術 ⁄ 共 11943字 評論關閉
【可搜索範圍】 1. 正常網頁搜索 數據:URL、標題,描述 2. 百科(百度,360) 數據:URL、標題,描述,作者,發布日期 3. 微博 數據:URL、標題,描述,作者,發布日期,微博類型(新浪、騰訊、163、搜狐),評論數,轉發數 4. 新聞 數據:URL、標題,描述,發布日期,發布網站 5. 論壇 數據:URL、標題,描述,發布日期,發布網站 6. 博客 數據:URL、標題,描述,發布日期,發布網站 【原理】 1. 獲取各大搜索引擎,...
閱讀全文
2014年04月28日 搜索技術 ⁄ 共 4075字 評論關閉
Web搜索引擎設計和實現分析 作者: 出處: 時間: 03-06 點擊: 31 內容載入中... ---- 一、引言 ---- 隨著Internet的飛速發展,人們越來越依靠網路來查找他們所需要的信息,但是,由於網上的信息源多不勝數,也就是我們經常所說的"Rich Data, Poor Information"。所以如何有效的去發現我們所需要的信息,就成了一個很關鍵的問題。為了解決這個問題,搜索引擎就隨之誕生。 ---- 現在在網上的搜索引擎也已經有很多,比較著...
閱讀全文