云计算 | 学步园

hadoop archive

2013年07月04日 ⁄ 云计算 ⁄ 共 2903字 ⁄ 评论关闭

1. HDFS对大量小文件的缺点通常，HDFS (hdfs://node14:9000/user/hadoop/inputDir) 的文件以block方式存放，block的metadata被放在NameNode的内存中. 这样，a large number of samll files can eat up a lot of memory on the NameNode 2.Hadoop Archives HAR files, are a file archiving facility that packs files into HDFS blocks more efficiently, thereby reducing NameNode memory usage while still allowing tran...

阅读全文

hadoop 2.2.0 参考资料

2013年06月17日 ⁄ 云计算 ⁄ 共 98字 ⁄ 评论关闭

基于Hadoop 2.2.0的高可用性集群搭建步骤（64位） Hadoop2.2.0安装配置手册！完全分布式Hadoop集群搭建过程~（心血之作啊~~） Hadoop 新 MapReduce 框架 Yarn 详解

阅读全文

Hadoop相关网络资源汇总

2013年06月15日 ⁄ 云计算 ⁄ 共 2765字 ⁄ 评论关闭

Hadoop相关网络资源汇总 (NOTE: 之前研究过的一些hadoop相关资料，在这里汇总起来，方便他人学习) 第一手资源 hadoop官方网站 hadoop.apache.org 最权威的官方资源之一 dev.yahoo.hadoop hadoop.cn(偶尔有一些有用信息) www.hadoop.org.cn hadoopchina 手册 hdfs命令行指南 http://hadoop.apache.org/core/docs/current/commands_manual.html#fsck ...

阅读全文

谷歌技术的“三宝”是GFS文件系统、BigTable大表、MapReduce算法

2013年06月09日 ⁄ 云计算 ⁄ 共 387字 ⁄ 评论关闭

谷歌技术的“三宝”是GFS文件系统、BigTable大表、MapReduce算法 GFS是谷歌自己的文件系统。至今除了谷歌，在数据中心运维上还没有谁自己开发文件系统这种十分底层的技术。大家要么使用微软windows的文件系统，要么使用unix的文件系统。很显然有了自己的文件系统，谷歌就可以有效地组织庞大的数据、服务器和存储，并让他们协同工作。 BigTable大表也是谷歌特有的技术，这样的大表可以管理百万G的数据表，并让表的结构...

阅读全文

HBase分布式安装手册

2013年05月31日 ⁄ 云计算 ⁄ 共 2573字 ⁄ 评论关闭

一、安装准备 1、下载HBASE 0.20.5版本：http://www.apache.org/dist/hbase/hbase-0.20.5/ 2、JDK版本：jdk-6u20-linux-i586.bin 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、默认前提是安装完hadoop 0.20.2版本： 192.168.3.131 namenode 192.168.3.132 datanode 192.168.3.133 datanode 二、操作步骤（默认在namenode上进行） 1、...

阅读全文

搭建hadoop的一点总结

2013年05月08日 ⁄ 云计算 ⁄ 共 2358字 ⁄ 评论关闭

周日在公司一边玩，一边鼓捣，把hadoop鼓捣完了，建了一个master，三个slave 答题的过程是这样的。 1.在master和slave上分别创建用户hadoop，修改hostname，/etc/sysconfig/network，修改hosts，用机器名字来识别不用的机器 /etc/hosts 2.完成master到slave，slave到master的无密码登录 3.javasdk的安装，mkdir /usr/java;cd /usr/java; ./jdk-6u31-linux-i586.bin，这样jdk安装完事了 4.在/etc/profile里配置jdk的环境变量，...

阅读全文

Hadoop分布式安装

2013年05月01日 ⁄ 云计算 ⁄ 共 3776字 ⁄ 评论关闭

一、安装准备 1、下载hadoop 0.20.2，地址：http://www.apache.org/dist/hadoop/core/hadoop-0.20.2/ 2、JDK版本：jdk-6u20-linux-i586.bin （必须是1.6） 3、操作系统：Linux s132 2.6.9-78.8AXS2smp #1 SMP Tue Dec 16 02:42:55 EST 2008 x86_64 x86_64 x86_64 GNU/Linux 4、三台机器，192.168.3.131（master），192.168.3.132（slave），192.168.3.133（slave）二、安装操作 1、拷贝以上文件到Linux的“/root”目录下。...

阅读全文

hbase+hadoop运维的一点经验

2013年04月26日 ⁄ 云计算 ⁄ 共 598字 ⁄ 评论关闭

目前系统上线，不断的有新问题，也不断的在总结一些经验，发在这里，做下mark，同时也为hbase使用者提供一些思路吧。 1、单条rowkey下虽然能支持百万列，但是建议不要这么做，因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题，一是查询时单行记录数据量过大，client超时；第二个问题是regionserver做compact的过程有可能被单条rowkey的数据塞满内存造成OOM 2、datanode的handler的数量不要默认值，太少，要在100左...

阅读全文

Hadoop执行DistributedGrep

2013年04月20日 ⁄ 云计算 ⁄ 共 1223字 ⁄ 评论关闭

(1)拷入数据 [hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1 (2)启动执行 [hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+' (3)监控过程 (4)查看结果 [hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1 [hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000 3 dfs.class 2 dfs.period 1 ...

阅读全文

Hadoop集群安装 (4) 配置JobTracker_conf/mapred-site.xml

2013年04月12日 ⁄ 云计算 ⁄ 共 679字 ⁄ 评论关闭

conf/mapred-site.xml 总结：主要配置JobTracker的address，scheduler，queue等。 1. 配置JobTracker (必须设置) <configuration> <property> <name>mapreduce.jobtracker.address</name> <value>node14:9001</value> <description>jobtracker's address</description> </property> </configuration> 2. 还有其他可配置项具体见hadoop-0.21.0/map...

阅读全文

学步园

hadoop archive

hadoop 2.2.0 参考资料

Hadoop相关网络资源汇总

谷歌技术的“三宝”是GFS文件系统、BigTable大表、MapReduce算法

HBase分布式安装手册

搭建hadoop的一点总结

Hadoop分布式安装

hbase+hadoop运维的一点经验

Hadoop执行DistributedGrep

Hadoop集群安装 (4) 配置JobTracker_conf/mapred-site.xml

书签

最新文章New

本站推荐

返回首页