云计算 | 学步园

hadoop单机部署

2013年12月19日 ⁄ 云计算 ⁄ 共 10815字 ⁄ 评论关闭

文章目录工具如下 1.创建用户和组 2.注销登录hadoop 3.安装jdk 4.配置hadoop 5.运行hadoop 6.wordcount测试废话少说，以下是我的安装过程。工具如下 Pc是学校的台式机，32位E4600CPU，1G内存，自己的笔记本虚拟机centos5.8 32位、jdk-6u13-linux-i586.bin、hadoop-0.22.0.tar.gz、SecureCrt(远程登陆PC)、百度(外网只能上csdn、cnblog，其余是百度快照) 闲着无聊，...

阅读全文

HBase的条件查询

2013年12月04日 ⁄ 云计算 ⁄ 共 1564字 ⁄ 评论关闭

一、环境 HBase版本hbase-0.20.5，Hadoop的版本hadoop-0.20.2，JDK1.6 二、需求背景在HBase中，进行条件查询，很多的文件都说过，但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索，这样的结构设计可以在一定层度上通过rowkey来定位查询（速度很快），但是，如果我是已知某个列的值，需要看有多少行的列包含这个值，那么这样的需求通过rowkey来查询就显得不合适。最早我的想法是查询内容，...

阅读全文

HBase的一点纪要

2013年11月19日 ⁄ 云计算 ⁄ 共 673字 ⁄ 评论关闭

1. 数据rowkey散列方便入库速度提升 2. 一般内存至少配置32G、8核CPU、硬盘不做Raid，系统盘和存储盘分开 3. 10台节点入库一个列族的表request数量应该在20W左右 4. Bulk Load增量效果不一定好，适合第一次数据导入 5. 一个表的列族数量最好控制在4个以内 6. SecondaryIndex一般来说还是采用多表的模式实现 7. URL做rowkey一般来说是用域名或者（IP+时间+域名） 8. S...

阅读全文

生成HFile以及入库到HBase

2013年10月01日 ⁄ 云计算 ⁄ 共 14998字 ⁄ 评论关闭

一、MR生成HFile文件 package insert.tools.hfile; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.io.ImmutableBytesWritable; import org.apache.hadoop.hbase.mapreduce.KeyValueSortReducer; import org.apache.hadoop.h...

阅读全文

修复hbase region hole问题流程

2013年09月22日 ⁄ 云计算 ⁄ 共 1438字 ⁄ 评论关闭

修复hbase region hole问题流程 1，查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失，考虑其他办法，首先考虑用major_compact对该表进行更新看是否会检测到问题并修复，major_compact完成之后未成功 2，重新起动hbase集群，是否会进行闭环检测？未成功，但是0.90.4将会带有检测并修复功能 3，考虑通过修改.meta.表，将非闭环改成闭环，测试机一直再用没检测，直接用hbase shel...

阅读全文

CentOS 5.5 下配置Hadoop 0.21单节点

2013年09月12日 ⁄ 云计算 ⁄ 共 390字 ⁄ 评论关闭

主要参考Apache官方文档http://hadoop.apache.org/common/docs/r0.21.0/single_node_setup.html 唯一注意的是对于CentOS默认安装后的主机名问题，默认主机名为bogon，需要在/etc/hosts中加入如下一行： 127.0.0.1 bogon.localdomain bogon 运行bin/hadoop namenode -format后进行文件系统的格式化，运行bin/start-all.sh启动所有节点，可以通过jps查看进程： [root@bogon hadoop-0.21.0]# jps 20532 JobT...

阅读全文

百度高级架构师马如悦：我的Hadoop 2.0

2013年09月06日 ⁄ 云计算 ⁄ 共 2527字 ⁄ 评论关闭

当计算任务越来越多，作业提交越来越多，企业普通的做法是，在原有的系统架构上，不停地往上堆积硬件或者加服务器。的确，hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器，所以当集群计算资源紧缺，又有空闲的机器可用时，集群管理员很容易想到给集群加机器来解决这个问题，因为集群的计算槽位增多了，Jobtracker能调度的槽位也多了，集群里能并行的map数和reduce数也增多了。但是，当集群规模扩大到一定...

阅读全文

Hadoop源码分析之-MapReduce篇

2013年09月03日 ⁄ 云计算 ⁄ 共 8505字 ⁄ 评论关闭

Hadoop提供的两大核心HDFS和Map/Reduce，这里先拿MapReduce来分析 1：实例程序，WordCount是一个典型的实例所采用的为0.20.2之后的Mapper和Reducer public class WordCount { public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(...

阅读全文

HBase加载大数据

2013年08月18日 ⁄ 云计算 ⁄ 共 2042字 ⁄ 评论关闭

一、概述 HBase有很多种方法将数据加载到表中，最简单直接的方法就是通过MapReduce调用TableOutputFormat方法，或者在client上调用API写入数据。但是，这都不是最有效的方式。这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业，将数据以HBase内部的组织格式输出成文件，然后将数据文件加载到已运行的集群中。（注：就是生成HFile，然后加载到HBase中。）二、大数据载入的步骤大数据的加载包含了2个步骤： 1、...

阅读全文

Hadoop中DBInputFormat和DBOutputFormat使用

2013年08月16日 ⁄ 云计算 ⁄ 共 5338字 ⁄ 评论关闭

一、背景为了方便MapReduce直接访问关系型数据库（Mysql,Oracle），Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过 DBInputFormat类把数据库表数据读入到HDFS，根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。二、技术细节 1、DBInputFormat（Mysql为例），先创建表: CREATE TABLE studentinfo ( id INTEGER NOT NULL PRIMARY KEY, name VARCHAR(32) NOT NULL); 2、由于0.20版本对DBI...

阅读全文

学步园

hadoop单机部署

HBase的条件查询

HBase的一点纪要

生成HFile以及入库到HBase

修复hbase region hole问题流程

CentOS 5.5 下配置Hadoop 0.21单节点

百度高级架构师马如悦：我的Hadoop 2.0

Hadoop源码分析之-MapReduce篇

HBase加载大数据

Hadoop中DBInputFormat和DBOutputFormat使用

书签

最新文章New

本站推荐

返回首页