现在位置: 首页 > 云计算 > 文章
2013年01月22日 云计算 ⁄ 共 5581字 评论关闭
一、概述      HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行,另外一方面里用了BigTable的高效数据组织形式.可以说HBase为海量数据的real-time相应提供了很好的一个开源解决方案.据说在某运营商中使用类似于BigTable(个人猜测应该就是HBase)的技术可以在两秒时间内从2TB数据中查找到某条话费记录.而这是原来该运营...
阅读全文
2013年01月07日 云计算 ⁄ 共 709字 评论关闭
1. startup 在datanode上执行: $ bin/hadoop namenode -format $ bin/start-dfs.sh   //该命令将查看conf/slaves文件获取datanode节点信息,然后启动datanode 在jobtracker上执行: bin/start-mapred.sh  //该脚本将查看conf/slaves文件获取tasktracker节点信息,然后启动jobtracker 2. shutdown  在datanode上执行: $ bin/stop-dfs.sh    //同上,该命令将查看conf/slaves文件获取datanode节点信息,关闭各个datanode ...
阅读全文
2013年01月07日 云计算 ⁄ 共 2854字 评论关闭
0.总体 (0)job queue的设置和scheduler密切相关 1) scheduler的配置见 conf/mapred-site.xml中的mapreduce.jobtracker.taskscheduler  2) Fairshare不支持queue Fairshare scheduler, implement their own mechanisms for collections of jobs and do not rely on queues provided by the framework 3)管理员应该认真选择 sheduler,然后选择配置对应的 queue (1) Job队列的作用 1)组织job 2)对作...
阅读全文
2013年01月01日 云计算 ⁄ 共 3498字 评论关闭
一、环境 1、hadoop 0.20.2 2、操作系统Linux 二、背景 1、最近写MR的代码,总在想统计一些错误的数据出现的次数,发现如果都写在reduce的输出里太难看了,所以想找办法专门输出一些统计数字。 2、翻看《hadoop权威指南》第8章第1节的时候发现能够自定义计数器,但都是基于0.19版本写的,好多函数都不对,改动相对较大。 3、基于上面2个理由,写个文档,记录一下。 三、实现 1、前提:写入一个文件,规范的是3个字段,“/t...
阅读全文