1. HDFS对大量小文件的缺点
通常,HDFS (hdfs://node14:9000/user/hadoop/inputDir) 的文件以block方式存放,block的metadata被放在NameNode的内存中. 这样,a large number of samll files can eat up a lot of memory on the NameNode
2.Hadoop Archives
HAR files, are a file archiving facility that packs files into HDFS blocks more efficiently, thereby reducing NameNode memory usage while still allowing tran...
阅读全文
基于Hadoop 2.2.0的高可用性集群搭建步骤(64位)
Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程~(心血之作啊~~)
Hadoop 新 MapReduce 框架 Yarn 详解
阅读全文
Hadoop相关网络资源汇总
(NOTE: 之前研究过的一些hadoop相关资料,在这里汇总起来,方便他人学习)
第一手资源
hadoop官方网站
hadoop.apache.org
最权威的官方资源之一
dev.yahoo.hadoop
hadoop.cn(偶尔有一些有用信息)
www.hadoop.org.cn
hadoopchina
手册
hdfs命令行指南
http://hadoop.apache.org/core/docs/current/commands_manual.html#fsck
...
阅读全文
谷歌技术的“三宝”是GFS文件系统、BigTable大表、MapReduce算法
GFS是谷歌自己的文件系统。至今除了谷歌,在数据中心运维上还没有谁自己开发文件系统这种十分
底层的技术。大家要么使用微软windows的文件系统,要么使用unix的文件系统。很显然有了自己的文
件系统,谷歌就可以有效地组织庞大的数据、服务器和存储,并让他们协同工作。
BigTable大表也是谷歌特有的技术,这样的大表可以管理百万G的数据表,并让表的结构...
阅读全文
一、安装准备
1、下载HBASE 0.20.5版本:http://www.apache.org/dist/hbase/hbase-0.20.5/
2、JDK版本:jdk-6u20-linux-i586.bin
3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux
4、默认前提是安装完hadoop 0.20.2版本:
192.168.3.131 namenode
192.168.3.132 datanode
192.168.3.133 datanode
二、操作步骤(默认在namenode上进行)
1、...
阅读全文
周日在公司一边玩,一边鼓捣,把hadoop鼓捣完了,建了一个master,三个slave
答题的过程是这样的。
1.在master和slave上分别创建用户hadoop,修改hostname,/etc/sysconfig/network,修改hosts,用机器名字来识别不用的机器 /etc/hosts
2.完成master到slave,slave到master的无密码登录
3.javasdk的安装,mkdir /usr/java;cd /usr/java; ./jdk-6u31-linux-i586.bin,这样jdk安装完事了
4.在/etc/profile里配置jdk的环境变量,...
阅读全文
一、安装准备
1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/
2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6)
3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux
4、三台机器,192.168.3.131(master),192.168.3.132(slave),192.168.3.133(slave)
二、安装操作
1、拷贝以上文件到Linux的“/root”目录下。...
阅读全文
目前系统上线,不断的有新问题,也不断的在总结一些经验,发在这里,做下mark,同时也为hbase使用者提供一些思路吧。
1、单条rowkey下虽然能支持百万列,但是建议不要这么做,因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题,一是查询时单行记录数据量过大,client超时;第二个问题是regionserver做compact的过程有可能被单条rowkey的数据塞满内存造成OOM
2、datanode的handler的数量不要默认值,太少,要在100左...
阅读全文
(1)拷入数据
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1
(2)启动执行
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'
(3)监控过程
(4)查看结果
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3 dfs.class
2 dfs.period
1 ...
阅读全文
conf/mapred-site.xml
总结:主要配置JobTracker的address,scheduler,queue等。
1. 配置JobTracker (必须设置)
<configuration>
<property>
<name>mapreduce.jobtracker.address</name>
<value>node14:9001</value>
<description>jobtracker's address</description>
</property>
</configuration>
2. 还有其他可配置项
具体见hadoop-0.21.0/map...
阅读全文