Hadoop平台搭建

现在的位置: 首页 > 综合 > 正文

RSS

Hadoop平台搭建

2013年07月17日 ⁄ 综合 ⁄ 共 2615字 ⁄ 字号小中大 ⁄ 评论关闭

Ubuntu 11.10和Ubuntu 11.04下配置Hadoop。

1.安装 JDK。

1.1 JDK的获取

去这里下载JDK，版本最好是6+，注意,对于ubuntu来说，它所使用的软件包并非
rpm 而是 deb，因此建议各位下载tar.gz版本。

1.2 JDK的安装与配置

将解压的压缩包解压至想安装的位置，如/usr/lib/jvm

修改环境变量：

sudo gedit .bashrc

export JAVA_HOME=/usr/lib/jvm/jdk.xx

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

保存退出。

执行source .bashrc使之生效。

1.3 测试

输入 java -version，显示下列内容说明成功。

java version "1.7.0_03"

Java(TM) SE Runtime Environment (build 1.7.0_03-b04)

Java HotSpot(TM) Server VM (build 22.1-b02, mixed mode) .

2.安装Hadoop

下载hadoop-0.21.0

解压到某一文件夹下，这里假设是/programfile

2.1配置ssh

无论是在单机环境还是多机环境中， Hadoop均采用SSH来访问各个节点的信息。在单机环境中，需要配置 SSH 来使用户 hadoop 能够访问 localhost 的信息。

首先需要安装 openssh-server。

sudo apt-get install openssh-server

其次是配置 SSH使得Hadoop应用能够实现无密码登录：

ssh-keygen -trsa -P ""

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

第1条命令将生成一个公钥和私钥对（即id_dsa和id_dsa.pub两个文件，位于~/.ssh文件夹下），第2条命令使得hadoop用户能够无需输入密码通过SSH访问localhost。

这时可通过以下命令来验证安装是否成功（如果没有提示输入密码直接登录成功，则说明安装成功）：

ssh localhost

2.2配置hadoop

Hadoop的配置文件都放在/hadoop/conf这个文件夹下面，主要是四个配置文件，分别是core-site.xml,hadoop-env.sh,hdsf-site.xml和mapred-site.xml。

修改conf/hadoop-‐env.sh，

设置JAVA_HOME，在该文件中找到如下行，去掉前面的注释。

# Thejava implementation to use. Required.

#export JAVA_HOME=/usr/lib/jvm/jdk.xx 改为：

# The java implementation to use. Required.

export JAVA_HOME=/usr/lib/jvm/JDK/jdk.xx(第一步安装的jdk)。

并在/etc/profile中加入

export HADOOP_HOME="/ProgramFile/Hadoop/hadoop-0.21.0"

export PATH="$HADOOP_HOME/bin:$PATH"

在core-site.xml的<configuration></configuration>之间加入如下内容：

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/program/tmp-${user.name}</value>

</property>

在conf/hdfs-site.xml的<configuration></configuration>之间加入如下内容：

<name>dfs.replication</name>

</property>

在conf/mapred-site.xml的<configuration></configuration>之间加入如下内容：

<name>mapred.job.tracker</name>

<value>localhost:9001</value>

</property>

以上操作已经完成对Hadoop的配置，接下来是运行Hadoop。

Hadoop 相关的命令都在hadoop/bin目录下。

格式化HDFS：

1. ./hadoop namenode –format

2. 启动单节点集群： ./start-all.sh

3. 用jps命令查看启动的进程，会有 Namenode,SecondaryNameNode,Datanode,JobTracker和TaskTracker共计5个。

如果出现缺少namenode或者datanode 的情况，首先停止启动的进程, ./stop-all.sh 然后把/usr/tmp 下所有以hadoop开头的文件删除，重新执行1，2步。
另外可以通过以下网址查看节点的运行情况：

http://localhost:50030/ - Hadoop 管理界面

http://localhost:50060/ - Hadoop Task Tracker 状态

http://localhost:50070/ - Hadoop DFS 状态

运行wordcout示例。本地新建N个文档(N>=1)，输入一些字符串或者单词。

然后创建输入文件夹 ./hadoop dfs -mkdir input

不用手动创建输出文件夹，否则系统会提示已经存在。

将本地文档上传至input

./hadoop dfs -copyFromLocal xxx input 注意xxx是本地文档的路径名，

如果有多个文档，建议分次上传。

执行： hadoop jar hadoop-mapred-example0.21.0.jar wordcount input output

查看结果 hadoop dfs -cat output/part-r-00000。

【上篇】vim之删除^M
【下篇】统计数据库中符合条件的表中记录的总数

作者: infocus

该日志由 infocus 于11年前发表在综合分类下，最后更新于 2013年07月17日.
转载请注明: Hadoop平台搭建 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

Hadoop平台搭建

作者: infocus

书签

最新文章New

本站推荐

返回首页