文章目录
工具如下
1.创建用户和组
2.注销登录hadoop
3.安装jdk
4.配置hadoop
5.运行hadoop
6.wordcount测试
废话少说,以下是我的安装过程。
工具如下
Pc是学校的台式机,32位E4600CPU,1G内存,自己的笔记本
虚拟机centos5.8 32位、jdk-6u13-linux-i586.bin、hadoop-0.22.0.tar.gz、SecureCrt(远程登陆PC)、百度(外网只能上csdn、cnblog,其余是百度快照)
闲着无聊,...
阅读全文
一、环境
HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6
二、需求背景
在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,这样的结构设计可以在一定层度上通过rowkey来定位查询(速度很快),但是,如果我是已知某个列的值,需要看有多少行的列包含这个值,那么这样的需求通过rowkey来查询就显得不合适。最早我的想法是查询内容,...
阅读全文
1. 数据rowkey散列方便入库速度提升
2. 一般内存至少配置32G、8核CPU、硬盘不做Raid,系统盘和存储盘分开
3. 10台节点入库一个列族的表request数量应该在20W左右
4. Bulk Load增量效果不一定好,适合第一次数据导入
5. 一个表的列族数量最好控制在4个以内
6. SecondaryIndex一般来说还是采用多表的模式实现
7. URL做rowkey一般来说是用域名或者(IP+时间+域名)
8. S...
阅读全文
一、MR生成HFile文件
package insert.tools.hfile;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.KeyValueSortReducer;
import org.apache.hadoop.h...
阅读全文
修复hbase region hole问题流程
1,查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失,考虑其他办法,
首先考虑用major_compact对该表进行更新看是否会检测到问题并修复,major_compact完成之后未成功
2,重新起动hbase集群,是否会进行闭环检测?未成功,但是0.90.4将会带有检测并修复功能
3,考虑通过修改.meta.表,将非闭环改成闭环,测试机一直再用没检测,直接用hbase shel...
阅读全文
主要参考Apache官方文档http://hadoop.apache.org/common/docs/r0.21.0/single_node_setup.html
唯一注意的是对于CentOS默认安装后的主机名问题,默认主机名为bogon,需要在/etc/hosts中加入如下一行:
127.0.0.1 bogon.localdomain bogon
运行bin/hadoop namenode -format后进行文件系统的格式化,
运行bin/start-all.sh启动所有节点,
可以通过jps查看进程:
[root@bogon hadoop-0.21.0]# jps
20532 JobT...
阅读全文
当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器,所以当集群计算资源紧缺,又有空闲的机器可用时,集群管理员很容易想到给集群加机器来解决这个问题,因为集群的计算槽位增多了,Jobtracker能调度的槽位也多了,集群里能并行的map数和reduce数也增多了。
但是,当集群规模扩大到一定...
阅读全文
Hadoop提供的两大核心HDFS和Map/Reduce,这里先拿MapReduce来分析
1:实例程序,WordCount是一个典型的实例
所采用的为0.20.2之后的Mapper和Reducer
public class WordCount {
public static class TokenizerMapper
extends Mapper<Object, Text, Text, IntWritable>{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(...
阅读全文
一、概述
HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。
这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载到HBase中。)
二、大数据载入的步骤
大数据的加载包含了2个步骤:
1、...
阅读全文
一、背景
为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过
DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。
二、技术细节
1、DBInputFormat(Mysql为例),先创建表:
CREATE TABLE studentinfo (
id INTEGER NOT NULL PRIMARY KEY,
name VARCHAR(32) NOT NULL);
2、由于0.20版本对DBI...
阅读全文