hadoop伪分布式配置及遇到的问题

现在的位置: 首页 > 综合 > 正文

RSS

hadoop伪分布式配置及遇到的问题

2013年08月07日 ⁄ 综合 ⁄ 共 4419字 ⁄ 字号小中大 ⁄ 评论关闭

一、运行wordcount例子

在hadoop上新建目录，然后用put程序将linux中的文件input1.txt和input2.txt输入到hadoop文件系统中的/tmp/input/中

hadoopfs -mkdir /tmp/input

hadoopfs -mkdir /tmp/output

hadoopfs -put input1.txt /tmp/input/

hadoop fs -put input2.txt /tmp/input/

执行wordcount例子，注意：/tmp/output1的“/”要加上。而且/tmp/output1这个输出目录不能提前创建。

执行程序：

bin/hadoop jar~/software/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount /tmp/input/tmp/output1

查看结果：

（1）浏览器查看hdfs

（2）命令行：bin/hadoop fs -cat/tmp/output1/part-r-00000

二、进入不了hdfs

hadoop运行状态直接关机，导致hadoop数据目录（/tmp/hadoop-USERNAME）被删除，重起开启计算机，，使用start-all.sh启动hadoop，使用jps命令（启动hadoop服务后直接在终端中输入jps即可）会发现namenode没起来。

解决方案：应该删除 /tmp/hadoop-root/dfs/name这个目录，然后再重新格式化，成功。然后执行bin/stop-all.sh，bin/hadoop namenode
–format命令重新格式化。

注意要关机前使用命令stop-all.sh关闭hadoop。

三、单击伪分布式配置

1.装jdk,配置环境变量

chmod +x jdk-6u24-linux-i586.bin

./jdk-6u24-linux-i586.bin

修改文件：sudo gedit /etc/profile

#set Java Environment

export JAVA_HOME="/home/user/software/jdk1.6.0_24"

export CLASSPATH="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"

export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin"

umask 022

2.装ssh

1）确认已经连接上互联网，输入命令

sudo apt-get install ssh

2）配置为可以无密码登录本机。

首先查看在u用户下是否存在.ssh文件夹（注意ssh前面有“.”，这是一个隐藏文件夹），输入命令：

1） ls -a /home/u

一般来说，安装SSH时会自动在当前用户下创建这个隐藏文件夹，如果没有，可以手动创建一个。u为当前登陆系统的用户名。

接下来，输入命令：

2）ssh-keygen -t dsa-P '' -f ~/.ssh/id_dsa

解释一下，ssh-keygen代表生成密钥；-t（注意区分大小写）表示指定生成的密钥类型；dsa是dsa密钥认证的意思，即密钥类型；-P用于提供密语；-f指定生成的密钥文件。（关于密钥密语的相关知识这里就不详细介绍了，里面会涉及SSH的一些知识，如果读者有兴趣，可以自行查阅资料。）

在Ubuntu中，~代表当前用户文件夹，这里即/home/u。

这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub，这是SSH的一对私钥和公钥，类似于钥匙及锁，把id_dsa.pub（公钥）追加到授权的key里面去。

输入命令：

3） cat~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

这段话的意思是把公钥加到用于认证的公钥文件中，这里的authorized_keys是用于认证的公钥文件。

至此无密码登录本机已设置完毕。

4）验证SSH是否已安装成功，以及是否可以无密码登录本机。(如果需要输入密码，那么可以修改/etc/ssh/sshd_config文件下的PasswordAuthentication no)

输入命令：

1. ssh -version

显示结果：

OpenSSH_5.1p1 Debian-6ubuntu2, OpenSSL 0.9.8g 19Oct 2007

Bad escapecharacter 'rsion'.

显示SSH已经安装成功了。

输入命令：

2. ssh localhost

会有如下显示：

Theauthenticity of host 'localhost (::1)' can't be established.

RSA keyfingerprint is 8b:c3:51:a5:2a:31:b7:74:06:9d:62:04:4f:84:f8:77.

Are you sureyou want to continue connecting (yes/no)? yes

Warning: Permanentlyadded 'localhost' (RSA) to the list of known hosts.

Linux master2.6.31-14-generic #48-Ubuntu SMP Fri Oct 16 14:04:26 UTC 2009 i686

To accessofficial Ubuntu documentation, please visit:

http://help.ubuntu.com/

Last login:Mon Oct 18 17:12:40 2010 from master

admin@Hadoop:~$

这说明已经安装成功，第一次登录时会询问你是否继续链接，输入yes即可进入。

实际上，在Hadoop的安装过程中，是否无密码登录是无关紧要的，但是如果

配置无密码登录，每次启动Hadoop，都需要输入密码以登录到每台机器的DataNode上，考虑到一般的Hadoop集群动辄数百台或上千台机器，因此一般来说都会配置SSH的无密码登录。

ps -e |grep ssh

如果看到sshd那说明ssh-server已经启动了。

如果没有则可以这样启动：sudo /etc/init.d/sshstart

ssh-server配置文件位于/ etc/ssh/sshd_config，在这里可以定义SSH的服务端口，默认端口是22，你可以自己定义成其他端口号，如222。

然后重启SSH服务：

sudo /etc/init.d/ssh stop

sudo /etc/init.d/ssh start

3. Hadoop-env.sh:

export JAVA_HOME=你的JDK安装地址 //不要加双引号

指定JDK的安装位置：

4. conf/core-site.xml:

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

这是Hadoop核心的配置文件，这里配置的是HDFS的地址和端口号。

5.conf/hdfs-site.xml:

<name>dfs.replication</name>

</property>

</configuration>

这是Hadoop中HDFS的配置，配置的备份方式默认为3，在单机版的Hadoop中，需要将其改为1。

6.conf/mapred-site.xml:

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

</configuration>

这是Hadoop中MapReduce的配置文件，配置的是JobTracker的地址和端口。

需要注意的是，如果安装的是0.20之前的版本，那么只有一个配置文件，即为Hadoop-site.xml。

接下来，在启动Hadoop前，需格式化Hadoop的文件系统HDFS（这点与Windows是一样的，重新分区后的卷总是需要格式化的）。进入Hadoop文件夹，输入下面的命令：

1. bin/Hadoop NameNode -format

格式化文件系统，接下来启动Hadoop。

输入命令：

1. bin/start-all.sh（全部启动）

最后，验证Hadoop是否安装成功。

打开浏览器，分别输入网址：

1. http://localhost:50030(MapReduce的Web页面)

2. http://localhost:50070 (HDFS的Web页面)

如果都能查看，说明Hadoop已经安装成功。

对于Hadoop来说，安装MapReduce及HDFS都是必须的，但是如果有必要，你依然可以只启动HDFS（start-dfs.sh）或MapReduce（start-mapred.sh）。

四、遇到的问题

（1）遇到在hadoop/bin目录下，直接执行hadoop，start-all.sh等命令失效的情况。但是在hadoop目录下通过bin/hadoop,bin/start-all.sh方式则未失效。

解决方案：

方法1：使用命令添加环境变量

export PATH=”$PATH:/home/user/software/hadoop-0.20.2/bin:”;

千万不要执行exportPATH=”/home/user/software/hadoop-0.20.2/bin:”;这样会把PATH中前面的环境变量覆盖掉。

另外注意：/etc/profile文件中的环境变量会自动添加，所以以上PATH最好写在该文件中，

如下所示：

#set Java Environment

export JAVA_HOME="/home/user/software/jdk1.6.0_24"

export CLASSPATH="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"

export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin:/home/user/software/hadoop-0.20.2/bin:"

umask 022

修改之后可以通过hadoop,start-all.sh,stop-all.sh,hadoop-daemonstart –namenode等命令直接执行。

【上篇】Android Loader详解三：重启与回调
【下篇】C++ Boost 之Python(一个简单的例子)

作者: glaucoma

该日志由 glaucoma 于11年前发表在综合分类下，最后更新于 2013年08月07日.
转载请注明: hadoop伪分布式配置及遇到的问题 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

hadoop伪分布式配置及遇到的问题

作者: glaucoma

书签

最新文章New

本站推荐

返回首页