现在的位置: 首页 > 综合 > 正文

Hadoop 2.2.0正式版特性分析

2018年02月11日 ⁄ 综合 ⁄ 共 2365字 ⁄ 字号 评论关闭

Apache官网的说明:

15 October, 2013: Release 2.2.0 available

Apache Hadoop2.2.0 is the GA release of Apache Hadoop 2.x.

Users areencouraged to immediately move to 2.2.0 since this release is significantlymore stable and is guaranteed to remain compatible in terms of both APIs andprotocols.

To recap, thisrelease has a number of significant highlights compared to Hadoop 1.x:

·        YARN - A general purpose resourcemanagement system for Hadoop to allow MapReduce and other other data processingframeworks and services

·        High Availability for HDFS

·        HDFS Federation

·        HDFS Snapshots

·        NFSv3 access to data in HDFS

·        Support for running Hadoop on MicrosoftWindows

·        Binary Compatibility for MapReduceapplications built on Hadoop-1.x

·        Substantial amount of integration testingwith rest of projects in the ecosystem

 

      从以上说明可以看到,Hadoop 2.2.0是Hadoop 2.x时代第一个稳定版本,建议所有正在使用Hadoop 2.x的用户升级到这个版本。

      2.2.0相对于2.x之前的版本,主要功能上没有太大的变化,所以这里所列举的新特性都是基于Hadoop 1.x来说的。

·        YARN

YARN全名为“YetAnother Resource Negotiator”,是Hadoop 0.23之后开始引入的一个资源管理框架,目的是为了让各种计算框架都可以在Hadoop上运行而不是仅限于Hadoop 1.x时代的MapReduce。

目前YARN可以管理的资料类型包括了CPU和内存,未来可能会加入对磁盘和网络等类型的支持。

目前YARN可以支持的框架包括:MapReduce(批处理框架)、Storm(流式处理框架,项目为Stormon YARN,主要由Hortonworks在推进。正式版本未出但可用,yahoo和淘宝等在内部已经大规模使用)、Spark(内存处理框架,项目为Spark on YARN,主要由Cloudera在推进。正式版本未出但可用,淘宝等在内部也已经大规模使用)。

正在YARN上开发且未来比较靠谱的框架有:Tez(DAG框架,继承自MapReduce,性能有巨大提升)、Hoya(将HBase运行在YARN上,主要由Hortonworks在推进)。

此外,还有一些框架,如BSP、MPI等也有在YARN的开源项目,但前景还不太明朗。

·        High Availability for HDFS

解决HDFS的单点问题。

实现是基于NameNode的主从切换,关键点在于主从NameNode通过一个共享储存同步元数据信息。Hadoop目前提供了NFS、QJM和Bookeeper三种共享储存可选。三种方案中年,NFS本身又存在单点问题,而QJM和Bookeeper都是分布式系统,不存在单点问题;前者由Cloudera推出,后者由Yahoo推出,相对来说,QJM更简单,更易于维护。

·        HDFS Federation

解决NameNode内存容量限制HDFS元数据数量的问题。

HDFS的所有元数据都是储存在NameNode的内存中。HDFS Federation将整个HDFS的元数据空间分隔为多个独立的空间,每个空间的元数据由一个NameNode保存。

这种方式还是存在单点问题:如果有NameNode故障,那么它保存的那部分元数据将无法访问。同时,由于每个DataNode需要向所有的NameNode汇报心跳,会对集群的性能产生影响,而且NameNode越多,性能影响越大。

·        HDFS Snapshots

HDFS快照,这个和数据库快照类似。

·        NFSv3 access to data in HDFS

支持以NFS3协议,使得用户可以像访问本地数据一样访问HDFS上的数据。

·        Support for running Hadoop on MicrosoftWindows

支持在Windows平台上运行Hadoop。在此版本以前,Windows只是试验平台。

·        Binary Compatibility for MapReduceapplications built on Hadoop-1.x

保持对Hadoop 1.x构建的MapReduce应用的二进制兼容性。

在Hadoop 1.x中的MapReduce有新旧两套API,性能上没有区别,新API封装得更好,扩展性更好。但2.x之前的一些版本只能使用支持旧API的MapReduce应用,使用新API的应用需要进行一些修改。

·        Substantial amount of integration testingwith rest of projects in the ecosystem

和Hadoop生态系统的其他系统进行了充分的集成测试。

抱歉!评论已关闭.