现在的位置: 首页 > 云计算 > 正文

Hadoop执行DistributedGrep

2013年04月20日 云计算 ⁄ 共 1223字 ⁄ 字号 评论关闭

(1)拷入数据

[hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1

(2)启动执行
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'

(3)监控过程

(4)查看结果

[hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3       dfs.class
2       dfs.period
1       dfsmetrics.log
1       dfsadmin
1       dfs.servers
1       dfs.replication
1       dfs.name.dir
1       dfs.file

1       dfs.data.dir

(5)查看输入输出文件大小
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -du
25250  hdfs://node14:9000/user/hadoop/inputDir1
126    hdfs://node14:9000/user/hadoop/outputDir1
说明:
读输入日志或者web端监控作业执行,发现该次作业提交实质上执行了两个MapReduce Jobs.
(1) job_201204271504_0007  grep-search   完成grep
(2) job_201204271504_0008  grep-sort  对前一个作业的结果实现sort
前一个作业的输出作为后一个作业输入?

(6) job_201204271504_0007日志分析
共16个Map Task  (因为conf包含了16个文件,每个文件一个task):
Task00、Task01在Node15上执行(04,05 / 08,09 / 12,13)
Task02、Task03在Node16上执行(06,07 / 10,11 / 14,15)
Map input records 721 
Map output records 12 

Combine input records 12 
Combine output records 9 

Shuffled Maps  16 //参与Shuffled的Map task数目

Reduce input records 0 9 
Reduce output records 0 9 
-------------------------------------------------------------------------------------
1个Reduce Task, 在node15上执行,有四个时间点:

Start Time / Shuffle Finished / Sort Finished / Finish Time

抱歉!评论已关闭.