现在位置: 首页 > 云计算 > 文章
2013年09月22日 云计算 ⁄ 共 1438字 评论关闭
修复hbase region hole问题流程 1,查询资料用hbase org.jruby.Main check_meta.rb --fix和 hbase hbck -fix会造成数据丢失,考虑其他办法,    首先考虑用major_compact对该表进行更新看是否会检测到问题并修复,major_compact完成之后未成功     2,重新起动hbase集群,是否会进行闭环检测?未成功,但是0.90.4将会带有检测并修复功能 3,考虑通过修改.meta.表,将非闭环改成闭环,测试机一直再用没检测,直接用hbase shel...
阅读全文
2013年09月12日 云计算 ⁄ 共 390字 评论关闭
主要参考Apache官方文档http://hadoop.apache.org/common/docs/r0.21.0/single_node_setup.html 唯一注意的是对于CentOS默认安装后的主机名问题,默认主机名为bogon,需要在/etc/hosts中加入如下一行: 127.0.0.1 bogon.localdomain bogon 运行bin/hadoop namenode -format后进行文件系统的格式化, 运行bin/start-all.sh启动所有节点, 可以通过jps查看进程: [root@bogon hadoop-0.21.0]# jps 20532 JobT...
阅读全文
2013年09月06日 云计算 ⁄ 共 2527字 评论关闭
当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器,所以当集群计算资源紧缺,又有空闲的机器可用时,集群管理员很容易想到给集群加机器来解决这个问题,因为集群的计算槽位增多了,Jobtracker能调度的槽位也多了,集群里能并行的map数和reduce数也增多了。 但是,当集群规模扩大到一定...
阅读全文
2013年09月03日 云计算 ⁄ 共 8505字 评论关闭
Hadoop提供的两大核心HDFS和Map/Reduce,这里先拿MapReduce来分析 1:实例程序,WordCount是一个典型的实例 所采用的为0.20.2之后的Mapper和Reducer public class WordCount {   public static class TokenizerMapper        extends Mapper<Object, Text, Text, IntWritable>{         private final static IntWritable one = new IntWritable(1);     private Text word = new Text();           public void map(...
阅读全文
2013年08月18日 云计算 ⁄ 共 2042字 评论关闭
一、概述 HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。 这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载到HBase中。) 二、大数据载入的步骤 大数据的加载包含了2个步骤: 1、...
阅读全文
2013年08月16日 云计算 ⁄ 共 5338字 评论关闭
一、背景      为了方便MapReduce直接访问关系型数据库(Mysql,Oracle),Hadoop提供了DBInputFormat和DBOutputFormat两个类。通过 DBInputFormat类把数据库表数据读入到HDFS,根据DBOutputFormat类把MapReduce产生的结果集导入到数据库表中。 二、技术细节 1、DBInputFormat(Mysql为例),先创建表: CREATE TABLE studentinfo ( id INTEGER NOT NULL PRIMARY KEY, name VARCHAR(32) NOT NULL); 2、由于0.20版本对DBI...
阅读全文
2013年08月11日 云计算 ⁄ 共 2464字 评论关闭
ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /var/lib/hadoop-0.20/cache/hdfs/dfs/data: namenode namespaceID = 240012870; datanode namespaceID = 1462711424 .   问题:Namenode上namespaceID与datanode上namespaceID不一致。   问题产生原因:每次namenode format会重新创建一个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode ...
阅读全文
2013年08月10日 云计算 ⁄ 共 973字 评论关闭
常常被一些用户问到,说“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误,然后失败呢?以前同一个作业没出现过的呀?”  10/01/10 12:48:01 INFO mapred.JobClient: Task Id : attempt_201001061331_0002_m_000027_0, Status : FAILED java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:498) at org.apache.hadoop....
阅读全文
2013年08月10日 云计算 ⁄ 共 1318字 评论关闭
      最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习、安装配置优化以及一些框架结构的设计。在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下。   1、为什么要用Hadoop 这个在网上已近有很多的人说过这个问题,我在这里就不多述了。但是我想说下,对于一个工具而言,只有最合适的应用场景没有最牛的工具。hadoop对我而言也只是一个工具,所以,更多的时候我是从业务角度...
阅读全文
2013年08月10日 云计算 ⁄ 共 1473字 评论关闭
1. 机器配置 (1) 机器规划 master(NameNode, JobTracker) 192.168.100.123   node14   slave1(DataNode, TaskTracker)192.168.100.124   node15 slave2(DataNode, TaskTracker)192.168.100.125   node16 (2) 添加hadoop用户 在三台机器上分别 groupadd hadoop 并 useradd -g hadoop hadoop添加hadoop用户 (3) NFS设置 通过root用户在master上配置NFS server,并共享/home目录; 在slaves上挂在master上的/home到本...
阅读全文