现在位置: 首页 > 云计算 > 文章
2013年12月19日 云计算 ⁄ 共 10815字 评论关闭
文章目录 工具如下 1.创建用户和组 2.注销登录hadoop 3.安装jdk 4.配置hadoop 5.运行hadoop 6.wordcount测试 废话少说,以下是我的安装过程。 工具如下 Pc是学校的台式机,32位E4600CPU,1G内存,自己的笔记本 虚拟机centos5.8 32位、jdk-6u13-linux-i586.bin、hadoop-0.22.0.tar.gz、SecureCrt(远程登陆PC)、百度(外网只能上csdn、cnblog,其余是百度快照) 闲着无聊,...
阅读全文
2013年12月04日 云计算 ⁄ 共 1564字 评论关闭
一、环境 HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6 二、需求背景       在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,这样的结构设计可以在一定层度上通过rowkey来定位查询(速度很快),但是,如果我是已知某个列的值,需要看有多少行的列包含这个值,那么这样的需求通过rowkey来查询就显得不合适。最早我的想法是查询内容,...
阅读全文
2013年11月19日 云计算 ⁄ 共 673字 评论关闭
1.        数据rowkey散列方便入库速度提升 2.        一般内存至少配置32G、8核CPU、硬盘不做Raid,系统盘和存储盘分开 3.        10台节点入库一个列族的表request数量应该在20W左右 4.        Bulk Load增量效果不一定好,适合第一次数据导入 5.        一个表的列族数量最好控制在4个以内 6.        SecondaryIndex一般来说还是采用多表的模式实现 7.        URL做rowkey一般来说是用域名或者(IP+时间+域名) 8.        S...
阅读全文
2013年10月01日 云计算 ⁄ 共 14998字 评论关闭
一、MR生成HFile文件 package insert.tools.hfile; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.io.ImmutableBytesWritable; import org.apache.hadoop.hbase.mapreduce.KeyValueSortReducer; import org.apache.hadoop.h...
阅读全文
2013年09月22日 云计算 ⁄ 共 1438字 评论关闭
修复hbase region hole问题流程 1,查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失,考虑其他办法,    首先考虑用major_compact对该表进行更新看是否会检测到问题并修复,major_compact完成之后未成功     2,重新起动hbase集群,是否会进行闭环检测?未成功,但是0.90.4将会带有检测并修复功能 3,考虑通过修改.meta.表,将非闭环改成闭环,测试机一直再用没检测,直接用hbase shel...
阅读全文
2013年09月12日 云计算 ⁄ 共 390字 评论关闭
主要参考Apache官方文档http://hadoop.apache.org/common/docs/r0.21.0/single_node_setup.html 唯一注意的是对于CentOS默认安装后的主机名问题,默认主机名为bogon,需要在/etc/hosts中加入如下一行: 127.0.0.1 bogon.localdomain bogon 运行bin/hadoop namenode -format后进行文件系统的格式化, 运行bin/start-all.sh启动所有节点, 可以通过jps查看进程: [root@bogon hadoop-0.21.0]# jps 20532 JobT...
阅读全文
2013年09月06日 云计算 ⁄ 共 2527字 评论关闭
当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器,所以当集群计算资源紧缺,又有空闲的机器可用时,集群管理员很容易想到给集群加机器来解决这个问题,因为集群的计算槽位增多了,Jobtracker能调度的槽位也多了,集群里能并行的map数和reduce数也增多了。 但是,当集群规模扩大到一定...
阅读全文
2013年09月03日 云计算 ⁄ 共 8505字 评论关闭
Hadoop提供的两大核心HDFS和Map/Reduce,这里先拿MapReduce来分析 1:实例程序,WordCount是一个典型的实例 所采用的为0.20.2之后的Mapper和Reducer public class WordCount {   public static class TokenizerMapper        extends Mapper<Object, Text, Text, IntWritable>{         private final static IntWritable one = new IntWritable(1);     private Text word = new Text();           public void map(...
阅读全文
2013年08月18日 云计算 ⁄ 共 2042字 评论关闭
一、概述 HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。 这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载到HBase中。) 二、大数据载入的步骤 大数据的加载包含了2个步骤: 1、...
阅读全文
2013年08月16日 云计算 ⁄ 共 5338字 评论关闭
一、背景      为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过 DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。 二、技术细节 1、DBInputFormat(Mysql为例),先创建表: CREATE TABLE studentinfo ( id INTEGER NOT NULL PRIMARY KEY, name VARCHAR(32) NOT NULL); 2、由于0.20版本对DBI...
阅读全文