现在的位置: 首页 > 架构设计 > 正文

hadoop是什么?为什么 Hadoop 很重要

2019年12月30日 架构设计 ⁄ 共 925字 ⁄ 字号 评论关闭

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构,一个能够对大量数据进行分布式处理的软件框架; Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

  Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

  为什么 Hadoop 很重要?

  能够快速存储和处理大量任何类型的数据。随着数据量和品种的不断增加,特别是来自社交媒体和物联网(IoT),这是一个关键考虑因素。

  计算能力。Hadoop 的分布式计算模型可以快速处理大数据。您使用的计算节点越多,您拥有的处理能力就越强。

  容错。数据和应用程序处理可防止硬件故障。如果节点发生故障,作业将自动重定向到其他节点,以确保分布式计算不会失败。自动存储所有数据的多个副本。

  灵活性。与传统的关系数据库不同,您不必在存储数据之前对其进行预处理。您可以根据需要存储尽可能多的数据,并决定以后如何使用它。这包括非结构化数据,如文本,图像和视频。

  低成本。开源框架是免费的,使用商用硬件来存储大量数据。

  可扩展性。只需添加节点,您就可以轻松扩展系统以处理更多数据。需要很少的管理。

  Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

抱歉!评论已关闭.