hadoop安装成功后,对hadoop的很多概念还是一知半解,通过在线文档及《hadoop权威指南》可以有个初步的了解。
1. hadoop解决了什么问题?
对大量的数据进行存储与分析。
方案:hdfs进行存储,而mapreduce进行分析,辅以其他的功能。
设计中需要考虑的问题:
大数据的读写问题,磁盘的IO的能力限制,促成了并行处理方式。
硬件故障的可能性,也需要多个硬件的备份,需要保证可靠性。
数据传输,也需要保证可靠性。
并形成即时查询或处理ad hoc的能力。
2. 与关系数据库的比较
关系型数据库: 善于处理结构化数据;其一般使用B树的结构,利于小部分数据的更新,或持续性的更新,但对大量数据更新时,效率比mapreduce低,原因:“排序/合并”来重建数据库;利于点查询,提供低延迟的索引和少量数据的更新。
mapreduce:善于处理半结构化、非结构化数据,大量数据分析,强调数据的大量获取能力及批处理的方式分析整个数据集,而不是低延迟的数据访问。一次写入,多次查询的特征(简单连续的模型)。横向线性扩展的方式
关系型数据库一次性无法读入PB级的数据时,源于磁盘速度的限制:
磁盘的寻址能力,取决于硬件磁头对磁盘的定位能力;
传输的速率,取决于磁盘的带宽。
并且寻址能力的发展,是远远慢于传输速率。
结构化数据:拥有既定格式的实体数据
半结构化数据:类似表格,但每个表格可以有自己的格式
非结构化数据:文本或图像
关系数据库,更利于处理结构化数据,完整,且无冗余
mapreduce,更利于处理半结构化和非结构化数据
3. map/reduce相关术语
键/值对:一般键是 偏移量,而值是文本。
CLASS_PATH: 环境变量:添加的应用程序的路径。
map函数:map任务的实现
reduce函数:reduce任务的实现
main函数:程序入口
jobtracker:调度tasktracker上运行的任务,来协调所有运行在系统上的作业。
tasktracker:运行任务的同时,将运行的结果和状态发送给jobtracker
分片input split:将数据划分为等长的数据块,然后每个分片构建一个map任务
数据本地化优化:在hdfs的本地节点的数据上运行map任务,可以获取最优性能
分区partition:多个reduce任务,每个reduce任务需建立一个分区
混洗shuffle:map与reduce任务之间的数据流相互混杂,多对多的关系
combiner 合并函数:其输出作为reduce的输入, 节省带宽,减少输出的数据量
4. 一次写入,多次读取的含义?
每个磁盘或机器从数据源复制数据到本地,即一次写入,然后,长时间地,只须分析时读取本地数据,即多次读取。
5. HDFS不适用的场景是什么?
1)低延迟的场景
HDFS具有很高的数据吞吐量的性能,代价是可能有较高的时间延迟。
而当要求,只有几十毫秒的延迟时,HBase表现会更好些。
2)大量的小文件
hdfs适用较大的数据块。当有大量小文件时,如过亿的小文件,namenode的管理能力就不够了。
3)多用户写入,任意修改文件
当有多个用户进行修改文件时,或者任意修改文件时,容易造成冲突,而比较低效。
6. 普通NFS与HDFS各自的特点有哪些?
1. 优点:透明性, 编程方便、容易,只须open,close,fread一些库的操作。
2. 缺点:无数据冗余性,所有数据在一台机器上,数据复制时,可能有带宽限制。
HDFS就是为克服NFS的缺点,进行设计。 存储可靠,读取方便,且与mapreduce整合到一起。可伸缩性强。高度可配置(一堆的配置文件)。支持web接口: http://namenode-name:50070/
流量文件系统。支持shell界面操作。
数据块: 默认64MB。有哪些优点?最小化寻址开销,简化系统设计
namenode: 管理者
datanode:工作者
client: 与namenode、datanode相交互。对用户而言,隐藏namenode、datanode的运作。
namenode的容错机制有哪些? 永久写入磁盘,或镜像namenode(辅助的namenode)
HDFS 架构
命令行接口如何运作的?
HDFS守护进程 根据“fs.default.name” (hdfs URI) 来确定 namenode的主机及端口,这样client端就能得知namenode在哪里运行,并链接到它
shell界面操作:
详细介绍:http://hadoop.apache.org/docs/r1.0.4/file_system_shell.html
举例
hadoop fs -command parameterlist
command:
-ls
-copyFromLocal
-mkdir
r, w, x三种权限。
Hadoop文件系统的分类:
File, hdfs, hftp, hsftp, har, hfs(云存储), ftp s3, s3
--------------
7. checkpoint node
从namenode上周期性备份namespace的checkpoint: fsimage, 和edit(checkpoint之后的log)。
其接口由 dfs.backup.address 和 dfs.backup.http.address
来配置。
另外,可以配置备份周期和数据块大小:
fs.checkpoint.period,
set to 1 hour by default
fs.checkpoint.size,
set to 64MB by default,edit log的最大值,当达到这个时,即使period时间未定,仍需checkpoint备份
checkpoint node的checkpoint路径一直是与 namenode的checkpoint路径相同。
8. Backup node
与checkpoint node相同的功能,只不过,无需下载fsimage和edit。因为其内存的内容与namenode相同(同步)。
导入checkpoint有专门的命令,流程。
9. 负载平衡器rebalancer
http://hadoop.apache.org/docs/r1.0.4/commands_manual.html#balancer
--------------
hdfs提供了一系列的接口来支持以下功能:
数据的读取、写入、查询、删除、存档,并保证一致性
如何保持hadoop的集群的均衡?
利用均衡器balancer来改善集群中块的均匀分布程度。
10. Hadoop I / O
数据完整性: 数据校验和 checksum,采用CRC-32,即4个字节,开销低于1%。datanode在复制时,检测数据的完整性。并具备修复能力,即从新复制数据。
压缩:减少文件存储空间,加速数据在网络和磁盘上的传输。压缩的工具有bzip2 gzip LZO ,bzip2在空间上有优势,而LZO在时间上有优势,gzip居中
空间 bzip2 gzip LZO 时间
序列化: 将结构化对象转换为 字节流,便于网络传输或磁盘永久存储。
反序列化:将字节流转换为 结构化对象的逆过程。
RPC: remote procedure call 远程过程调用,hadoop上多节点间的通信方式。采用序列化和反序列化的方式进行。
11. avro
是一个独立于编程语言的数据序列化系统。avro.apache.org中有详尽的描述。旨在解决hadoop中语言可移植性的缺乏。
avro有丰富的数据模式解析data schema resolution.