【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96，并自动生成组合行键

现在的位置: 首页 > 综合 > 正文

RSS

【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96，并自动生成组合行键

2014年08月24日 ⁄ 综合 ⁄ 共 3032字 ⁄ 字号小中大 ⁄ 评论关闭

目的：

使用Sqoop将Oracle中的数据导入到HBase中，并自动生成组合行键！

环境：

Hadoop2.2.0

Hbase0.96

sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz

Oracle11g

jdk1.7

Ubuntu14 Server

这里关于环境吐槽一句：

最新版本的Sqoop1.99.3功能太弱，只支持导入数据到HDFS，没有别的任何选项，太土了！（如有不同意见欢迎讨论给出解决方案）

命令：

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username ZHAOBIAO --P --table CMS_NEWS_0625 --hbase-create-table --hbase-table 147patents --column-family patentinfo
--split-by CREATE_TIME --hbase-row-key "CREATE_TIME,PUBLISH_TIME,ID,TITLE"

数据源相关参数说明：

--connect：数据库连接串

--username：用户名

--P：交互式输入密码

--table：表名

-m：并行执行sqoop导入程序的map task的数量，在不指定的情况下默认启动4个map

--split-by：并行导入过程中，各个map task根据哪个字段来划分数据段，该参数最好指定一个能相对均匀划分数据的字段，比如创建时间、递增的ID

HBase相关参数说明：

--hbase-table：hbase中接收数据的表名

--hbase-create-table：如果指定的接收数据表在hbase中不存在，则新建表

--column-family：列族名称，所有源表的字段都进入该列族

--hbase-row-key：如果不指定则采用源表的key作为hbase的row key。可以指定一个字段作为row key，或者指定组合行键，当指定组合行键时，用双引号包含多个字段，各字段用逗号分隔

-D sqoop.hbase.add.row.key ：是否将rowkey相关字段写入列族中，默认为false，默认情况下你将在列族中看不到任何row key中的字段。注意，该参数必须放在import之后。

注意几个坑：

1.Oracle的表名必须大写（--table CMS_NEWS_0625）；

2.用户名必须大写字母（ --username ZHAOBIAO）；

3.组合行键参数中的字段名都必须大写（--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"）；

4.作为组合行键的几个字段都不能有null值，否则会报错，请执行该语句前先确认；

5.sqoop不会导入值为null的字段。

异常解决

过程中遇到报错：

Error: java.io.IOException: Could not insert row with null value for row-key column: OPERATE_TIME

at org.apache.sqoop.hbase.ToStringPutTransformer.getPutCommand(ToStringPutTransformer.java:125)

at org.apache.sqoop.hbase.HBasePutProcessor.accept(HBasePutProcessor.java:142)

at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:128)

at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:92)

at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:634)

at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)

at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)

at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:38)

at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:31)

at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)

at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)

at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:415)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)

at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)

原因1：

--hbase-row-key "create_time,publish_time,operate_time,title"

字段名小写了，需要将其修改为大写

--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"

原因2：

该字段在原表中的确存在Null值。

补充：

Map-Reduce Framework

Map input records=639529

Map output records=639529

166251 row(s) in 1006.7010 seconds

【上篇】经典励志故事：成功是熬出来的
【下篇】LDO与DCDC

作者: impatient

该日志由 impatient 于10年前发表在综合分类下，最后更新于 2014年08月24日.
转载请注明: 【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96，并自动生成组合行键 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96，并自动生成组合行键

作者: impatient

书签

最新文章New

本站推荐

返回首页