最近想学习下hadoop的使用,光看一些blog和指南对于我这个新手是摸不着头绪的,首先先把hadoop装起来再说。
hadoop按照费我不少劲,原因就是hadoop的版本变化,0.20.*和0.23.*的版本配置和安装流程有比较大的不同。
这里简要介绍下安装过程,并有一些已经写的很详细的blog和参考资料给出来,再就是介绍下安装过程中出现的问题。
准备工作:
1. 把虚拟机装起来
VMWare
Ubuntu 12.04LTS
2. 下载,并安装JDK
3. 下载,解压安装hadoop
4. 安装ssh,并配置无密码登录
5. 关键的地方,配置hadoop。不同的版本,其配置过程也不同。
6. 启动hadoop,并测试。
以下是我安装hadoop0.23.7版本时参考的一些比较有用的资料,有些图文并茂,比我写的好多了。
1. 官方文档,里面一开始就介绍了single和cluster的安装。不过过程比较简略。
hadoop安装目录/share/doc/hadoop下是hadoop的本版本的详细文档。
或者在线官方文档
http://hadoop.apache.org/docs/r0.23.7/index.html
2. hadoop0.23.6安装的详细步骤,与hadoop0.23.7的安装过程相同。
http://wliufu.iteye.com/blog/1849224
3. 不仅介绍安装过程,还给出了hadoop一些相关原理和概念介绍
http://tech.it168.com/a2012/0420/1339/000001339776_all.shtml
4. hadoop权威指南,是一本很好的参考书,边安装,边去了解相关的概念,csdn和网上都有电子版。
问题回顾:
1. hadoop的版本 与安装配置hadoop的参考,一定要匹配。如0.20.*和0.23.*的版本配置和安装流程有比较大的不同。开始,我就下载了0.23.7版本,然后比照着0.20.*版本的步骤去安装,抓瞎了好久。
他们的区别,对安装来讲,一些目录有了比较大的改动,如原来的配置文件目录conf/废弃了,新版中都在etc/hadoop/下配置。而且,旧版中主要配置core-site.xml,hdfs.site.xml,mapred-site.xml,hadoop-env.sh文件。而新版中需要配置.bashrc, yarn-env.sh,添加各种环境变量,在core-site.xml,hdfs-site.xml, mapred-site.xml, yarn-site.xml配置hadoop。
2. 新版中,已经废弃了start-all.sh及stop-all.sh. 采用start-dfs.sh, stop-dfs.sh来启动和关闭hdfs的namenode和datanode。利用start-yarn.sh, stop-yarn.sh启动和停止 resource管理器和node管理器
3. 一些环境变量的配置,要根据自己软件的实际安装配置,适时地进行调整。
总之,安装时,只要方法和版本对照,就会比较顺利;若是不匹配,就折腾了。‘’
概念:
1. 什么是HDFS?
2. HDFS的特性是什么?适合做什么?不适合做什么?
3. 什么是namenode,datanode,client?与namespace有什么关系?
4. hadoop的文件系统概念,与普通的文件的进行对照。
hadoop fs -ls * 列表
hadoop fs -mkdir * 建目录
hadoop fs -copyFromLocal * 复制
hadoop版本号,分为三类:
0.2x.x
1.x.x
2.x.x
看着让人犯晕。网上有不少讨论和说明,但大都不全面,不统一,让人理解起来也不放心。
查了下官网的说明:在
http://hadoop.apache.org/releases.html
有了详细的说明:
- 1.1.X - current stable version, 1.1 release
- 1.2.X - current beta version, 1.2 release
- 2.X.X - current alpha version
- 0.23.X - simmilar to 2.X.X but missing NN HA.
- 0.22.X - does not include security
- 0.20.203.X - old legacy stable version
- 0.20.X - old legacy version
0.23.x/2.x.x与1.x.x沿着不同的版本基线,进行演化。
随着技术细节的深入理解,他们版本间的差别,会更加透彻。