现在的位置: 首页 > 综合 > 正文

hadoop伪分布式配置及遇到的问题

2013年08月07日 ⁄ 综合 ⁄ 共 4419字 ⁄ 字号 评论关闭

一、运行wordcount例子

在hadoop上新建目录,然后用put程序将linux中的文件input1.txt和input2.txt输入到hadoop文件系统中的/tmp/input/中

 

hadoopfs -mkdir /tmp/input

hadoopfs -mkdir /tmp/output

hadoopfs -put input1.txt /tmp/input/

hadoop fs -put input2.txt /tmp/input/

执行wordcount例子,注意:/tmp/output1的“/”要加上。而且/tmp/output1这个输出目录不能提前创建。

执行程序:

bin/hadoop jar~/software/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount /tmp/input/tmp/output1

查看结果:

(1)浏览器查看hdfs

(2)命令行:bin/hadoop fs -cat/tmp/output1/part-r-00000

 

二、进入不了hdfs

hadoop运行状态直接关机,导致hadoop数据目录(/tmp/hadoop-USERNAME)被删除,重起开启计算机,,使用start-all.sh启动hadoop,使用jps命令(启动hadoop服务后直接在终端中输入jps即可)会发现namenode没起来。

解决方案:应该删除 /tmp/hadoop-root/dfs/name这个目录,然后再重新格式化,成功。然后执行bin/stop-all.shbin/hadoop namenode
–format
命令重新格式化。

注意要关机前使用命令stop-all.sh关闭hadoop

三、单击伪分布式配置

1.装jdk,配置环境变量

chmod +x jdk-6u24-linux-i586.bin

 

./jdk-6u24-linux-i586.bin

 

修改文件:sudo gedit /etc/profile

#set Java Environment

export JAVA_HOME="/home/user/software/jdk1.6.0_24" 

export CLASSPATH="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"

export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin"

umask 022

2.装ssh

1)确认已经连接上互联网,输入命令

 sudo apt-get install ssh

2)配置为可以无密码登录本机。

首先查看在u用户下是否存在.ssh文件夹(注意ssh前面有“.”,这是一个隐藏文件夹),输入命令:

1 ls -a /home/u

一般来说,安装SSH时会自动在当前用户下创建这个隐藏文件夹,如果没有,可以手动创建一个。u为当前登陆系统的用户名。

接下来,输入命令:

2ssh-keygen -t dsa-P '' -f ~/.ssh/id_dsa

解释一下,ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件。(关于密钥密语的相关知识这里就不详细介绍了,里面会涉及SSH的一些知识,如果读者有兴趣,可以自行查阅资料。)

在Ubuntu中,~代表当前用户文件夹,这里即/home/u。

这个命令会在.ssh文件夹下创建两个文件id_dsa及id_dsa.pub,这是SSH的一对私钥和公钥,类似于钥匙及锁,把id_dsa.pub(公钥)追加到授权的key里面去。

输入命令:

3 cat~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys是用于认证的公钥文件。

至此无密码登录本机已设置完毕。

4)验证SSH是否已安装成功,以及是否可以无密码登录本机。(如果需要输入密码,那么可以修改/etc/ssh/sshd_config文件下的PasswordAuthentication no)

 

输入命令:

1. ssh -version

显示结果:

OpenSSH_5.1p1 Debian-6ubuntu2, OpenSSL 0.9.8g 19Oct 2007 

 Bad escapecharacter 'rsion'.

显示SSH已经安装成功了。

输入命令:

2. ssh localhost

会有如下显示:

 Theauthenticity of host 'localhost (::1)' can't be established. 

 RSA keyfingerprint is 8b:c3:51:a5:2a:31:b7:74:06:9d:62:04:4f:84:f8:77. 

 Are you sureyou want to continue connecting (yes/no)? yes 

 Warning: Permanentlyadded 'localhost' (RSA) to the list of known hosts. 

 Linux master2.6.31-14-generic #48-Ubuntu SMP Fri Oct 16 14:04:26 UTC 2009 i686 

 

 To accessofficial Ubuntu documentation, please visit: 

 http://help.ubuntu.com/ 

 

 Last login:Mon Oct 18 17:12:40 2010 from master 

 admin@Hadoop:~$

这说明已经安装成功,第一次登录时会询问你是否继续链接,输入yes即可进入。

实际上,在Hadoop的安装过程中,是否无密码登录是无关紧要的,但是如果

配置无密码登录,每次启动Hadoop,都需要输入密码以登录到每台机器的DataNode上,考虑到一般的Hadoop集群动辄数百台或上千台机器,因此一般来说都会配置SSH的无密码登录。

ps -e |grep ssh

如果看到sshd那说明ssh-server已经启动了。

如果没有则可以这样启动:sudo /etc/init.d/sshstart

ssh-server配置文件位于/ etc/ssh/sshd_config,在这里可以定义SSH的服务端口,默认端口是22,你可以自己定义成其他端口号,如222

然后重启SSH服务:

sudo /etc/init.d/ssh stop

sudo /etc/init.d/ssh start

 

3. Hadoop-env.sh: 

export JAVA_HOME=你的JDK安装地址 //不要加双引号

 指定JDK的安装位置:

4. conf/core-site.xml: 

<configuration>

   <property>

     <name>fs.default.name</name>

        <value>hdfs://localhost:9000</value>

   </property>

</configuration>

这是Hadoop核心的配置文件,这里配置的是HDFS的地址和端口号。

5.conf/hdfs-site.xml: 

 <configuration>

    <property>

        <name>dfs.replication</name>

       <value>1</value>

   </property>

 </configuration>

这是Hadoop中HDFS的配置,配置的备份方式默认为3,在单机版的Hadoop中,需要将其改为1。

6.conf/mapred-site.xml: 

 <configuration>

    <property>

        <name>mapred.job.tracker</name>

        <value>localhost:9001</value>

    </property>

 </configuration>

这是Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。

需要注意的是,如果安装的是0.20之前的版本,那么只有一个配置文件,即为Hadoop-site.xml。

 

接下来,在启动Hadoop前,需格式化Hadoop的文件系统HDFS(这点与Windows是一样的,重新分区后的卷总是需要格式化的)。进入Hadoop文件夹,输入下面的命令:

1. bin/Hadoop NameNode -format

格式化文件系统,接下来启动Hadoop。

输入命令:

1. bin/start-all.sh(全部启动)

最后,验证Hadoop是否安装成功。

打开浏览器,分别输入网址:

 

1. http://localhost:50030(MapReduceWeb页面

2. http://localhost:50070 (HDFSWeb页面)

如果都能查看,说明Hadoop已经安装成功。

对于Hadoop来说,安装MapReduce及HDFS都是必须的,但是如果有必要,你依然可以只启动HDFS(start-dfs.sh)或MapReduce(start-mapred.sh)。

 

四、遇到的问题

(1)遇到在hadoop/bin目录下,直接执行hadoop,start-all.sh等命令失效的情况。但是在hadoop目录下通过bin/hadoop,bin/start-all.sh方式则未失效。

解决方案:

方法1:使用命令添加环境变量

export PATH=”$PATH:/home/user/software/hadoop-0.20.2/bin:”;

千万不要执行exportPATH=”/home/user/software/hadoop-0.20.2/bin:”;这样会把PATH中前面的环境变量覆盖掉。

另外注意:/etc/profile文件中的环境变量会自动添加,所以以上PATH最好写在该文件中,

如下所示:

#set Java Environment

export JAVA_HOME="/home/user/software/jdk1.6.0_24"  

export CLASSPATH="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"

export PATH="$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin:/home/user/software/hadoop-0.20.2/bin:"

umask 022

 

修改之后可以通过hadoop,start-all.sh,stop-all.sh,hadoop-daemonstart –namenode等命令直接执行。

抱歉!评论已关闭.