1. ssh本身不可達
查看的地方1./etc/hosts/deny /etc/hosts.allow
查看/etc/ssh/sshd_config
#modify to ssh localhost xbn
#Protocol 1
Protocol 2
#modify end
這裡是1 無法和localhost建立信任關係,但是修改成上面的樣子就可以了
2.hadoop的配置
ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.io.IOException: Incomplete HDFS URI, no host:
這個問題是/etc/host裡面的host不能帶_(下劃線)但是可以...
閱讀全文
一、背景
1、最近在做hadoop的性能測試,採用了自帶的Terasort的方式,但是在運行的過程中發現如果數據量過大,對硬碟I/O需求不小(通過Ganglia監控發現),因此,打算找找看是否有合適的配置來解決這樣一類的問題,所以才有了這篇記錄的文檔。
2、在做修改之前,當然必須確認slave的多塊硬碟沒有做任何形式的raid。
二、修改配置
1、hdfs-site.xml中的
<property>
<name>dfs.data.dir</name>
<val...
閱讀全文
1. startup
在datanode上執行:
$ bin/hadoop namenode -format
$ bin/start-dfs.sh //該命令將查看conf/slaves文件獲取datanode節點信息,然後啟動datanode
在jobtracker上執行:
bin/start-mapred.sh //該腳本將查看conf/slaves文件獲取tasktracker節點信息,然後啟動jobtracker
2. shutdown
在datanode上執行:
$ bin/stop-dfs.sh //同上,該命令將查看conf/slaves文件獲取datanode節點信息,關閉各個datanode
...
閱讀全文
0.總體
(0)job queue的設置和scheduler密切相關
1) scheduler的配置見 conf/mapred-site.xml中的mapreduce.jobtracker.taskscheduler
2) Fairshare不支持queue
Fairshare scheduler, implement their own mechanisms for collections of jobs and do not rely on queues provided by the framework
3)管理員應該認真選擇 sheduler,然後選擇配置對應的 queue
(1) Job隊列的作用
1)組織job
2)對作...
閱讀全文
一、環境
1、hadoop 0.20.2
2、操作系統Linux
二、背景
1、最近寫MR的代碼,總在想統計一些錯誤的數據出現的次數,發現如果都寫在reduce的輸出里太難看了,所以想找辦法專門輸出一些統計數字。
2、翻看《hadoop權威指南》第8章第1節的時候發現能夠自定義計數器,但都是基於0.19版本寫的,好多函數都不對,改動相對較大。
3、基於上面2個理由,寫個文檔,記錄一下。
三、實現
1、前提:寫入一個文件,規範的是3個欄位,「/t...
閱讀全文