hadoop0.23.7伪分布式安装回顾

现在的位置: 首页 > 综合 > 正文

RSS

hadoop0.23.7伪分布式安装回顾

2013年12月12日 ⁄ 综合 ⁄ 共 1859字 ⁄ 字号小中大 ⁄ 评论关闭

最近想学习下hadoop的使用，光看一些blog和指南对于我这个新手是摸不着头绪的，首先先把hadoop装起来再说。

hadoop按照费我不少劲，原因就是hadoop的版本变化，0.20.*和0.23.*的版本配置和安装流程有比较大的不同。

这里简要介绍下安装过程，并有一些已经写的很详细的blog和参考资料给出来，再就是介绍下安装过程中出现的问题。

准备工作：

1. 把虚拟机装起来

VMWare

Ubuntu 12.04LTS

2. 下载，并安装JDK

3. 下载，解压安装hadoop

4. 安装ssh，并配置无密码登录

5. 关键的地方，配置hadoop。不同的版本，其配置过程也不同。

6. 启动hadoop，并测试。

以下是我安装hadoop0.23.7版本时参考的一些比较有用的资料，有些图文并茂，比我写的好多了。

1. 官方文档，里面一开始就介绍了single和cluster的安装。不过过程比较简略。

hadoop安装目录/share/doc/hadoop下是hadoop的本版本的详细文档。

或者在线官方文档

http://hadoop.apache.org/docs/r0.23.7/index.html

2. hadoop0.23.6安装的详细步骤，与hadoop0.23.7的安装过程相同。

http://wliufu.iteye.com/blog/1849224

3. 不仅介绍安装过程，还给出了hadoop一些相关原理和概念介绍

http://tech.it168.com/a2012/0420/1339/000001339776_all.shtml

4. hadoop权威指南，是一本很好的参考书，边安装，边去了解相关的概念，csdn和网上都有电子版。

问题回顾：

1. hadoop的版本与安装配置hadoop的参考，一定要匹配。如0.20.*和0.23.*的版本配置和安装流程有比较大的不同。开始，我就下载了0.23.7版本，然后比照着0.20.*版本的步骤去安装，抓瞎了好久。

他们的区别，对安装来讲，一些目录有了比较大的改动，如原来的配置文件目录conf/废弃了，新版中都在etc/hadoop/下配置。而且，旧版中主要配置core-site.xml，hdfs.site.xml，mapred-site.xml，hadoop-env.sh文件。而新版中需要配置.bashrc, yarn-env.sh,添加各种环境变量，在core-site.xml,hdfs-site.xml, mapred-site.xml, yarn-site.xml配置hadoop。

2. 新版中，已经废弃了start-all.sh及stop-all.sh. 采用start-dfs.sh, stop-dfs.sh来启动和关闭hdfs的namenode和datanode。利用start-yarn.sh, stop-yarn.sh启动和停止 resource管理器和node管理器

3. 一些环境变量的配置，要根据自己软件的实际安装配置，适时地进行调整。

总之，安装时，只要方法和版本对照，就会比较顺利；若是不匹配，就折腾了。‘’

概念：

1. 什么是HDFS?

2. HDFS的特性是什么？适合做什么？不适合做什么？

3. 什么是namenode，datanode，client？与namespace有什么关系?

4. hadoop的文件系统概念，与普通的文件的进行对照。

hadoop fs -ls * 列表

hadoop fs -mkdir * 建目录

hadoop fs -copyFromLocal * 复制

hadoop版本号，分为三类：

0.2x.x

1.x.x

2.x.x

看着让人犯晕。网上有不少讨论和说明，但大都不全面，不统一，让人理解起来也不放心。

查了下官网的说明：在

http://hadoop.apache.org/releases.html

有了详细的说明：

1.1.X - current stable version, 1.1 release
1.2.X - current beta version, 1.2 release
2.X.X - current alpha version
0.23.X - simmilar to 2.X.X but missing NN HA.
0.22.X - does not include security
0.20.203.X - old legacy stable version
0.20.X - old legacy version

0.23.x/2.x.x与1.x.x沿着不同的版本基线，进行演化。

随着技术细节的深入理解，他们版本间的差别，会更加透彻。

【上篇】代码自己懂得
【下篇】MySQl里类似Oracle rownum的实现

作者: mutt

该日志由 mutt 于10年前发表在综合分类下，最后更新于 2013年12月12日.
转载请注明: hadoop0.23.7伪分布式安装回顾 | 学步园 +复制链接

抱歉!评论已关闭.

学步园