現在用的 hadoop 的版本是 0.20.2-cdh3u6。 cdh 是 Cloudera 的開源版本。
使用 local 模式的時候,會出現幾個錯誤,記錄如下:
1. java.lang.NullPointerException 異常
1
2
3
4
5
6
7
java.lang.Exception: java.lang.NullPointerException
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:349)
Caused by: java.lang.NullPointerException
at org.apache.hadoop.mapred.pipes...
閱讀全文
有的時候,我們在 hadoop 上的輸入可能不是一些基於行的文本,是希望自定義一些結構化的數據。這種情況,一般會選用工具將結構化的數據序列化成位元組流,存儲在磁碟上。然後在 maper 中讀取進來,反序列化即可得到原來的數據。
我們使用 google protobuf 作為這種結構化的信息傳遞的工具。
首先可以先定義 person.proto 文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
...
閱讀全文
最近帶新人,問我怎麼查詢一些網站在搜索引擎中的基本信息,所以今天把這幾個簡單的命令給大家複習一下。其實這些命令和我之前的一篇文章《Google頂級搜索引擎搜索方法使用技巧大全》原理一樣,都是都是搜索引擎檢索信息方面的功能。下面入正題:
site:查詢網站被索引的網頁,site: www.semshare.netlink:查詢鏈接到你的網站的網頁,link: www.semshare.netcache:網站當前在Google的緩存,cache: www.semshare.netinfo:網站...
閱讀全文
IDE使用的MyEclipse6.5,資料庫使用MySQL 5.0.37 , 另裝了Navicat for MySQL , jdk版本是6.0
工程做完的效果圖如下,com.zly.indexManager中兩個類,分別創建索引和搜索索引,
com.zly.test.entity中是使用的實體類,分別是NewsType(新聞類型),NewsItem(新聞具體條目),PageControl(分頁實體bean) , SearchResultBean(保存搜索結果的bean).
瀏覽和搜索的前提是有據可查,沒有數據什麼都實現不了...
閱讀全文
越來越多的網站,開始採用「單頁面結構」(Single-page
application)。
整個網站只有一張網頁,採用Ajax技術,根據用戶的輸入,載入不同的內容。
這種做法的好處是用戶體驗好、節省流量,缺點是AJAX內容無法被搜索引擎抓取。舉例來說,你有一個網站。
http://example.com
用戶通過井號結構的URL,看到不同的內容。
http://example.com#1
http://example.com#2
http://example.com#3
但是,搜索引擎只抓取examp...
閱讀全文
對搜索引擎(百度/谷歌/雅虎)排名不友好的五種網站
搜索引擎針對不同類別的網站,判斷標準和考核得分點是不
一樣的,避免對百度排名不友好的五種網站操作
你的網站是否在這五種網站里,決定你的網站是否能獲得排
名。
1、有沒有同學看到有的網站非常高大上,很多企業網都很
炫,實際實際上不利於優化
搜索引擎不可讀 frame IF框架
大量網站都存在js、FLASH、框架,這些不是不利於優化嗎
,這裡有個理解誤區,js要實現的效果是...
閱讀全文
搜索引擎的結構清晰、分工明確。按照各自的功能劃分,可以劃分為四大體系結構。
一、抓取系統(又稱為下載系統)
搜索引擎的工作組件為爬蟲,爬蟲通過在網頁上爬尋,來抓取和下載各種類型的網頁。並且保持對萬維網變化的同步。這也是搜索引擎工作的第一步。
二、分析系統
通過抓到的網頁,分析系統來對這些不同類型的網頁進行分析,並進行pr和分詞計算。
三、索引系統
將分析處理後的網頁進行索引入庫。
四、查詢系統
...
閱讀全文
Web搜索引擎設計和實現分析
作者: 出處: 時間: 03-06 點擊:
31
內容載入中...
---- 一、引言
---- 隨著Internet的飛速發展,人們越來越依靠網路來查找他們所需要的信息,但是,由於網上的信息源多不勝數,也就是我們經常所說的"Rich Data, Poor Information"。所以如何有效的去發現我們所需要的信息,就成了一個很關鍵的問題。為了解決這個問題,搜索引擎就隨之誕生。
---- 現在在網上的搜索引擎也已經有很多,比較著...
閱讀全文