现在的位置: 首页 > 综合 > 正文

hadoop的一系列子项目能为我们做什么?

2013年04月06日 ⁄ 综合 ⁄ 共 932字 ⁄ 字号 评论关闭

hive:
hive是基于hadoop的hdfs的工具,可以将结构化的数据文件映射成一张数据表,并提供完整的sql查询功能,可以将sql语句转换成MapReduce任务运行。主要适合数据仓储的统计分析。
这是一种可以存储、查询、分析hdfs中的大数据的机制。

结构:
用户接口:CLI、Client、WUI(通过浏览器访问Hive)
元数据存储:Hive将元数据存储在数据库中,如:mysql
解释器、编译器、优化器、执行器:他们完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后的MapReduce调用执行

数据结构:
Hive没有专门的数据存储格式,更没有为数据创建索引。只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。
Hive的数据模型:表(Table)、外部表(External Table)、桶(Bucket)

HBase:
HBase 只是一个分布式、面向列、支持排序映射的存储系统。我们只依靠HBase 来处理存储的扩展,而不是业务逻辑。能够把
精力集中在我们的应用和业务逻辑,而不需要关心数据的扩展问题

pig:
Pig 是一种探索大规模数据集的脚本语言。Pig 的诱人之处在于它能够用控制台上的五六行Pig Latin 代码轻松处理TB 级的数据。
Pig 提供了更丰富的数据结构。
Pig Latin 是一种数据流编程语言,而SQL 是一种描述型编程语言
Hive介于Pig 和传统的RDBMS 之间

ZooKeeper:
ZooKeeper 上管理分配事务的状态有助于在恢复时可以从崩愤服务器遗留的状态开始继续分配
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关

键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户

Sqoop:
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

抱歉!评论已关闭.