现在位置: 首页 > 云计算 > 文章
2013年07月04日 云计算 ⁄ 共 2903字 评论关闭
1. HDFS对大量小文件的缺点 通常,HDFS (hdfs://node14:9000/user/hadoop/inputDir) 的文件以block方式存放,block的metadata被放在NameNode的内存中. 这样,a large number of samll files can eat up a lot of memory on the NameNode 2.Hadoop Archives  HAR files, are a file archiving facility that packs files into HDFS blocks more efficiently, thereby reducing NameNode memory usage while still allowing tran...
阅读全文
2013年06月17日 云计算 ⁄ 共 98字 评论关闭
基于Hadoop 2.2.0的高可用性集群搭建步骤(64位) Hadoop2.2.0安装配置手册!完全分布式Hadoop集群搭建过程~(心血之作啊~~) Hadoop 新 MapReduce 框架 Yarn 详解
阅读全文
2013年06月15日 云计算 ⁄ 共 2765字 评论关闭
Hadoop相关网络资源汇总 (NOTE: 之前研究过的一些hadoop相关资料,在这里汇总起来,方便他人学习) 第一手资源 hadoop官方网站 hadoop.apache.org 最权威的官方资源之一 dev.yahoo.hadoop hadoop.cn(偶尔有一些有用信息) www.hadoop.org.cn  hadoopchina 手册 hdfs命令行指南 http://hadoop.apache.org/core/docs/current/commands_manual.html#fsck ...
阅读全文
谷歌技术的“三宝”是GFS文件系统、BigTable大表、MapReduce算法    GFS是谷歌自己的文件系统。至今除了谷歌,在数据中心运维上还没有谁自己开发文件系统这种十分 底层的技术。大家要么使用微软windows的文件系统,要么使用unix的文件系统。很显然有了自己的文 件系统,谷歌就可以有效地组织庞大的数据、服务器和存储,并让他们协同工作。    BigTable大表也是谷歌特有的技术,这样的大表可以管理百万G的数据表,并让表的结构...
阅读全文
2013年05月31日 云计算 ⁄ 共 2573字 评论关闭
一、安装准备 1、下载HBASE 0.20.5版本:http://www.apache.org/dist/hbase/hbase-0.20.5/ 2、JDK版本:jdk-6u20-linux-i586.bin 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本:     192.168.3.131 namenode     192.168.3.132 datanode     192.168.3.133 datanode 二、操作步骤(默认在namenode上进行) 1、...
阅读全文
2013年05月08日 云计算 ⁄ 共 2358字 评论关闭
周日在公司一边玩,一边鼓捣,把hadoop鼓捣完了,建了一个master,三个slave 答题的过程是这样的。 1.在master和slave上分别创建用户hadoop,修改hostname,/etc/sysconfig/network,修改hosts,用机器名字来识别不用的机器 /etc/hosts 2.完成master到slave,slave到master的无密码登录 3.javasdk的安装,mkdir  /usr/java;cd /usr/java; ./jdk-6u31-linux-i586.bin,这样jdk安装完事了 4.在/etc/profile里配置jdk的环境变量,...
阅读全文
2013年05月01日 云计算 ⁄ 共 3776字 评论关闭
一、安装准备 1、下载hadoop 0.20.2,地址:http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/ 2、JDK版本:jdk-6u20-linux-i586.bin (必须是1.6) 3、操作系统:Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器,192.168.3.131(master),192.168.3.132(slave),192.168.3.133(slave) 二、安装操作 1、拷贝以上文件到Linux的“/root”目录下。...
阅读全文
2013年04月26日 云计算 ⁄ 共 598字 评论关闭
目前系统上线,不断的有新问题,也不断的在总结一些经验,发在这里,做下mark,同时也为hbase使用者提供一些思路吧。 1、单条rowkey下虽然能支持百万列,但是建议不要这么做,因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题,一是查询时单行记录数据量过大,client超时;第二个问题是regionserver做compact的过程有可能被单条rowkey的数据塞满内存造成OOM 2、datanode的handler的数量不要默认值,太少,要在100左...
阅读全文
2013年04月20日 云计算 ⁄ 共 1223字 评论关闭
(1)拷入数据 [hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1 (2)启动执行 [hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+' (3)监控过程 (4)查看结果 [hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1 [hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000 3       dfs.class 2       dfs.period 1    ...
阅读全文
2013年04月12日 云计算 ⁄ 共 679字 评论关闭
conf/mapred-site.xml 总结:主要配置JobTracker的address,scheduler,queue等。 1. 配置JobTracker (必须设置) <configuration> <property> <name>mapreduce.jobtracker.address</name> <value>node14:9001</value> <description>jobtracker's address</description> </property> </configuration> 2. 还有其他可配置项 具体见hadoop-0.21.0/map...
阅读全文