现在位置: 首页 > 云计算 > 文章
2014年01月27日 云计算 ⁄ 共 779字 评论关闭
 MapReduce工作原理   一个Map-Reduce任务的执行过程以及数据输入输出的类型如下所示: (input)<k1,v1> -> map -> <k2,v2> -> combine -> <k2,v2> -> reduce -> <k3,v3>(output)   下面通过一个的例子并结合源代码来详细说明这个过程 WordCount示例 这也是Hadoop自带的一个例子,目标是统计文本文件中单词的个数。 假设有如下的两个文本文件来运行WorkCount程序: Hello Wor...
阅读全文
2014年01月26日 云计算 ⁄ 共 13752字 评论关闭
Hadoop 2.0集群配置详细教程 前言 Hadoop2.0介绍 Hadoop是 apache 的开源 项目,开发的主要目的是为了构建可靠,可拓展 scalable ,分布式的系 统, hadoop 是一系列的子工程的 总和,其中包含 1. hadoop common : 为其他项目提供基础设施 2. HDFS :分布式的文件系 统 3. MapReduce : A software framework for distributed processing of large data sets on compute clusters 。一个 简化分布式编程的框架。 4. 其他工程...
阅读全文
2014年01月20日 云计算 ⁄ 共 1538字 评论关闭
hadoop1.0.0以前版本: 只有权限管理没有安全机制 ◆权限管理 1.参数配置 dfs.permissions = true 开启HDFS权限管理,false时对HDFS的读写不检查用户的权限。 chmod,chgrp 和 chown 不受该参数控制,总是会检查权限。 2.权限管理 HDFS每个文件和目录有一个所有者(owner)和一个组(group)。 文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。   ▪对文件而言,当读取这个文件时需要有r权限,当写入...
阅读全文
2013年12月26日 云计算 ⁄ 共 2241字 评论关闭
0. 准备 (1) 需要有gcc、autoconf、automake来编译安装google的protocol buffer (2) http://protobuf.googlecode.com/files/protobuf-2.4.1.tar.gz./configure --prefix=/usr/localmakemake checksudo make install完成后,检验$ protocMissing input file. (3) JDK、ANT、Maven(MVN) 1. 在Eclipse中增加SVN插件在help->install new software添加 http://subclipse.tigris.org/update/ 在window/Open Perspective中就会右SV...
阅读全文
2013年12月21日 云计算 ⁄ 共 916字 评论关闭
近两年在云计算方面折腾,从基础知识、到理论算法,进一步Hadoop的集群搭建、Hbase,Hive,Pig等一系列的研究; 甚至Avro,ZooKeepr,mahout以及Chukwa,都有所涉足;读书破万卷,下笔有如神; 对此用的再多,不如下手一试,而阅读Hadoop的源码结构也是一种修炼内功的不必可少之路; 1:首先再看源码之前,至少要了解Hadoop有哪些东西,至少需要掌握了如下几点 Hadoop提供了什么东东 HDFS,Map-Reduce当然是必不可少的 Hadoop的集群...
阅读全文
2013年12月19日 云计算 ⁄ 共 7702字 评论关闭
一、 简介 history started by chad walters and jim 2006.11 G release paper on BigTable 2007.2 inital HBase prototype created as Hadoop contrib 2007.10 First useable Hbase 2008.1 Hadoop become Apache top-level project and Hbase becomes subproject 2008.10 Hbase 0.18,0.19 released   hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。 它介于...
阅读全文
2013年12月19日 云计算 ⁄ 共 10815字 评论关闭
文章目录 工具如下 1.创建用户和组 2.注销登录hadoop 3.安装jdk 4.配置hadoop 5.运行hadoop 6.wordcount测试 废话少说,以下是我的安装过程。 工具如下 Pc是学校的台式机,32位E4600CPU,1G内存,自己的笔记本 虚拟机centos5.8 32位、jdk-6u13-linux-i586.bin、hadoop-0.22.0.tar.gz、SecureCrt(远程登陆PC)、百度(外网只能上csdn、cnblog,其余是百度快照) 闲着无聊,...
阅读全文
2013年12月04日 云计算 ⁄ 共 1564字 评论关闭
一、环境 HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6 二、需求背景       在HBase中,进行条件查询,很多的文件都说过,但是大多数都是在说明如何设置合理的表结构以及如何设置rowkey进行查询检索,这样的结构设计可以在一定层度上通过rowkey来定位查询(速度很快),但是,如果我是已知某个列的值,需要看有多少行的列包含这个值,那么这样的需求通过rowkey来查询就显得不合适。最早我的想法是查询内容,...
阅读全文
2013年11月19日 云计算 ⁄ 共 673字 评论关闭
1.        数据rowkey散列方便入库速度提升 2.        一般内存至少配置32G、8核CPU、硬盘不做Raid,系统盘和存储盘分开 3.        10台节点入库一个列族的表request数量应该在20W左右 4.        Bulk Load增量效果不一定好,适合第一次数据导入 5.        一个表的列族数量最好控制在4个以内 6.        SecondaryIndex一般来说还是采用多表的模式实现 7.        URL做rowkey一般来说是用域名或者(IP+时间+域名) 8.        S...
阅读全文
2013年10月01日 云计算 ⁄ 共 14998字 评论关闭
一、MR生成HFile文件 package insert.tools.hfile; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.io.ImmutableBytesWritable; import org.apache.hadoop.hbase.mapreduce.KeyValueSortReducer; import org.apache.hadoop.h...
阅读全文