现在的位置: 首页 > 综合 > 正文

hadoop及hdfs一些初步的概念

2013年12月20日 ⁄ 综合 ⁄ 共 3039字 ⁄ 字号 评论关闭

hadoop安装成功后,对hadoop的很多概念还是一知半解,通过在线文档及《hadoop权威指南》可以有个初步的了解。

1. hadoop解决了什么问题?

对大量的数据进行存储与分析。

方案:hdfs进行存储,而mapreduce进行分析,辅以其他的功能。

设计中需要考虑的问题:

大数据的读写问题,磁盘的IO的能力限制,促成了并行处理方式。

硬件故障的可能性,也需要多个硬件的备份,需要保证可靠性。

数据传输,也需要保证可靠性。

并形成即时查询或处理ad hoc的能力。

2. 与关系数据库的比较

关系型数据库: 善于处理结构化数据;其一般使用B树的结构,利于小部分数据的更新,或持续性的更新,但对大量数据更新时,效率比mapreduce低,原因:“排序/合并”来重建数据库;利于点查询,提供低延迟的索引和少量数据的更新。

mapreduce:善于处理半结构化、非结构化数据,大量数据分析,强调数据的大量获取能力及批处理的方式分析整个数据集,而不是低延迟的数据访问。一次写入,多次查询的特征(简单连续的模型)。横向线性扩展的方式

关系型数据库一次性无法读入PB级的数据时,源于磁盘速度的限制:

磁盘的寻址能力,取决于硬件磁头对磁盘的定位能力;

传输的速率,取决于磁盘的带宽。

并且寻址能力的发展,是远远慢于传输速率。

结构化数据:拥有既定格式的实体数据

半结构化数据:类似表格,但每个表格可以有自己的格式

非结构化数据:文本或图像

关系数据库,更利于处理结构化数据,完整,且无冗余

mapreduce,更利于处理半结构化和非结构化数据

3. map/reduce相关术语

键/值对:一般键是 偏移量,而值是文本。

CLASS_PATH: 环境变量:添加的应用程序的路径。

map函数:map任务的实现

reduce函数:reduce任务的实现

main函数:程序入口

jobtracker:调度tasktracker上运行的任务,来协调所有运行在系统上的作业。

tasktracker:运行任务的同时,将运行的结果和状态发送给jobtracker

分片input split:将数据划分为等长的数据块,然后每个分片构建一个map任务

数据本地化优化:在hdfs的本地节点的数据上运行map任务,可以获取最优性能

分区partition:多个reduce任务,每个reduce任务需建立一个分区

混洗shuffle:map与reduce任务之间的数据流相互混杂,多对多的关系

combiner 合并函数:其输出作为reduce的输入, 节省带宽,减少输出的数据量

4. 一次写入,多次读取的含义?

每个磁盘或机器从数据源复制数据到本地,即一次写入,然后,长时间地,只须分析时读取本地数据,即多次读取。

5. HDFS不适用的场景是什么?

1)低延迟的场景

HDFS具有很高的数据吞吐量的性能,代价是可能有较高的时间延迟。

而当要求,只有几十毫秒的延迟时,HBase表现会更好些。

2)大量的小文件

 hdfs适用较大的数据块。当有大量小文件时,如过亿的小文件,namenode的管理能力就不够了。

3)多用户写入,任意修改文件

 当有多个用户进行修改文件时,或者任意修改文件时,容易造成冲突,而比较低效。

6. 普通NFS与HDFS各自的特点有哪些?

1. 优点:透明性, 编程方便、容易,只须open,close,fread一些库的操作。

2. 缺点:无数据冗余性,所有数据在一台机器上,数据复制时,可能有带宽限制。

HDFS就是为克服NFS的缺点,进行设计。 存储可靠,读取方便,且与mapreduce整合到一起。可伸缩性强。高度可配置(一堆的配置文件)。支持web接口:  http://namenode-name:50070/
流量文件系统。支持shell界面操作。

数据块: 默认64MB。有哪些优点?最小化寻址开销,简化系统设计

namenode: 管理者

datanode:工作者

client: 与namenode、datanode相交互。对用户而言,隐藏namenode、datanode的运作。

namenode的容错机制有哪些? 永久写入磁盘,或镜像namenode(辅助的namenode)

HDFS 架构

命令行接口如何运作的?

HDFS守护进程 根据“fs.default.name” (hdfs URI) 来确定 namenode的主机及端口,这样client端就能得知namenode在哪里运行,并链接到它

shell界面操作:

详细介绍:http://hadoop.apache.org/docs/r1.0.4/file_system_shell.html

举例

hadoop fs -command parameterlist

command:

-ls

-copyFromLocal

-mkdir

r, w, x三种权限。 

Hadoop文件系统的分类:

File, hdfs, hftp, hsftp, har, hfs(云存储), ftp s3, s3

--------------

7. checkpoint node

从namenode上周期性备份namespace的checkpoint: fsimage, 和edit(checkpoint之后的log)。

其接口由 dfs.backup.address 和 dfs.backup.http.address
来配置。

另外,可以配置备份周期和数据块大小:

fs.checkpoint.period,
set to 1 hour by default

fs.checkpoint.size,
set to 64MB by default,edit log的最大值,当达到这个时,即使period时间未定,仍需checkpoint备份


checkpoint node的checkpoint路径一直是与 namenode的checkpoint路径相同。


8. Backup node

与checkpoint node相同的功能,只不过,无需下载fsimage和edit。因为其内存的内容与namenode相同(同步)。

导入checkpoint有专门的命令,流程。


9. 负载平衡器rebalancer 

http://hadoop.apache.org/docs/r1.0.4/commands_manual.html#balancer

--------------

hdfs提供了一系列的接口来支持以下功能:

数据的读取、写入、查询、删除、存档,并保证一致性

如何保持hadoop的集群的均衡?

利用均衡器balancer来改善集群中块的均匀分布程度。

10. Hadoop  I / O

数据完整性: 数据校验和 checksum,采用CRC-32,即4个字节,开销低于1%。datanode在复制时,检测数据的完整性。并具备修复能力,即从新复制数据。

压缩:减少文件存储空间,加速数据在网络和磁盘上的传输。压缩的工具有bzip2   gzip   LZO ,bzip2在空间上有优势,而LZO在时间上有优势,gzip居中

    空间 bzip2   gzip   LZO 时间

序列化: 将结构化对象转换为 字节流,便于网络传输或磁盘永久存储。

反序列化:将字节流转换为 结构化对象的逆过程。

RPC: remote procedure call 远程过程调用,hadoop上多节点间的通信方式。采用序列化和反序列化的方式进行。

11. avro

是一个独立于编程语言的数据序列化系统。avro.apache.org中有详尽的描述。旨在解决hadoop中语言可移植性的缺乏。

avro有丰富的数据模式解析data schema resolution.

抱歉!评论已关闭.