hive sequencefile 和rcfile 效率对比

现在的位置: 首页 > 综合 > 正文

hive sequencefile 和rcfile 效率对比

2013年09月13日 ⁄ 综合 ⁄ 共 1050字 ⁄ 字号小中大 ⁄ 评论关闭

源数据放在test1表中，大小 26413896039 Byte。

创建sequencefile 压缩表test2，使用insert overwrite table test2 select ...语句将test1数据导入 test2 ，设置配置项：

set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
SET io.seqfile.compression.type=BLOCK;
set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;

导入耗时：98.528s。另压缩类型使用默认的record，耗时为418.936s。

创建rcfile 表test3 ，同样方式导入test3。

set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;
set io.compression.codecs=com.hadoop.compression.lzo.LzoCodec;

导入耗时 253.876s。

以下为其他统计数据对比：

rows	类型	合并耗时	文件数	总数据大小	count(1)	基于domain、referer求点击的top100
238610458	原始数据	1134	26413896039	66.297s
238610458	seq	98.528(block) 418.936(record)	1134	32252973826	41.578	394.949s（读入数据：32,253,519,280，读入行数:238610458）
238610458	rcfile	253.876 s	15	3765481781	29.318	286.588s（读入数据：1,358,993,读入行数:238610458

因为原始数据中均是小文件，所以合并后文件数大量减少，但是hive实现的seqfile 处理竟然还是原来的数目。rcfile 使用lzo 压缩效果明显，7倍的压缩比率。查询数据中读入数据因为这里这涉及小部分数据，所以rcfile的表读入数据仅是seqfile的4%.而读入行数一致。

【上篇】Linux内核头文件中关于s3c2410 GPIO的宏
【下篇】最小树形图

作者: cj19842005

该日志由 cj19842005 于11年前发表在综合分类下，最后更新于 2013年09月13日.
转载请注明: hive sequencefile 和rcfile 效率对比 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

hive sequencefile 和rcfile 效率对比

作者: cj19842005

书签

最新文章New

本站推荐

返回首页