1. ssh本身不可达
查看的地方1./etc/hosts/deny /etc/hosts.allow
查看/etc/ssh/sshd_config
#modify to ssh localhost xbn
#Protocol 1
Protocol 2
#modify end
这里是1 无法和localhost建立信任关系,但是修改成上面的样子就可以了
2.hadoop的配置
ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.io.IOException: Incomplete HDFS URI, no host:
这个问题是/etc/host里面的host不能带_(下划线)但是可以...
阅读全文
一、背景
1、最近在做hadoop的性能测试,采用了自带的Terasort的方式,但是在运行的过程中发现如果数据量过大,对硬盘I/O需求不小(通过Ganglia监控发现),因此,打算找找看是否有合适的配置来解决这样一类的问题,所以才有了这篇记录的文档。
2、在做修改之前,当然必须确认slave的多块硬盘没有做任何形式的raid。
二、修改配置
1、hdfs-site.xml中的
<property>
<name>dfs.data.dir</name>
<val...
阅读全文
1. startup
在datanode上执行:
$ bin/hadoop namenode -format
$ bin/start-dfs.sh //该命令将查看conf/slaves文件获取datanode节点信息,然后启动datanode
在jobtracker上执行:
bin/start-mapred.sh //该脚本将查看conf/slaves文件获取tasktracker节点信息,然后启动jobtracker
2. shutdown
在datanode上执行:
$ bin/stop-dfs.sh //同上,该命令将查看conf/slaves文件获取datanode节点信息,关闭各个datanode
...
阅读全文
0.总体
(0)job queue的设置和scheduler密切相关
1) scheduler的配置见 conf/mapred-site.xml中的mapreduce.jobtracker.taskscheduler
2) Fairshare不支持queue
Fairshare scheduler, implement their own mechanisms for collections of jobs and do not rely on queues provided by the framework
3)管理员应该认真选择 sheduler,然后选择配置对应的 queue
(1) Job队列的作用
1)组织job
2)对作...
阅读全文
一、环境
1、hadoop 0.20.2
2、操作系统Linux
二、背景
1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。
2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。
3、基于上面2个理由,写个文档,记录一下。
三、实现
1、前提:写入一个文件,规范的是3个字段,“/t...
阅读全文