【甘道夫】Sqoop原生增量导入特性探秘

原始思路

要想实现增量导入，完全可以不使用Sqoop的原生增量特性，仅使用shell脚本生成一个以当前时间为基准的固定时间范围，然后拼接Sqoop命令语句即可。

原生增量导入特性简介

Sqoop提供了原生增量导入的特性，包含以下三个关键参数：

Argument	Description
`--check-column (col)`	指定一个“标志列”用于判断增量导入的数据范围，该列不能是字符型，最好是数字或者日期型（这个很好理解吧）。
`--incremental (mode)`	指定增量模式，包含“追加模式” `append` 和“最后修改模式” `lastmodified （该模式更满足常见需求）。`
`--last-value (value)`	指定“标志列”上次导入的上界。如果“标志列”是最后修改时间，则--last-value为上次执行导入脚本的时间。

结合Saved Jobs机制，可以实现重复调度增量更新Job时 --last-value 字段的自动更新赋值，再结合cron或者oozie的定时调度，可实现真正意义的增量更新。

实验：增量job的创建和执行

创建增量更新job：

[email protected]:~/Sqoop/sqoop-1.4.4/bin$ sqoop job --create incretest -- import --connect jdbc:oracle:thin:@192.168.0.138:1521:orcl --username HIVE --password hivefbi --table FBI_SQOOPTEST --hive-import --hive-table INCRETEST --incremental
lastmodified --check-column LASTMODIFIED --last-value ‘2014/8/27 13:00:00‘

14/08/27 17:29:37 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.

14/08/27 17:29:37 INFO tool.BaseSqoopTool: Using Hive-specific delimiters for output. You can override

14/08/27 17:29:37 INFO tool.BaseSqoopTool: delimiters with --fields-terminated-by, etc.

14/08/27 17:29:37 WARN tool.BaseSqoopTool: It seems that you‘ve specified at least one of following:

14/08/27 17:29:37 WARN tool.BaseSqoopTool: --hive-home

14/08/27 17:29:37 WARN tool.BaseSqoopTool: --hive-overwrite

14/08/27 17:29:37 WARN tool.BaseSqoopTool: --create-hive-table

14/08/27 17:29:37 WARN tool.BaseSqoopTool: --hive-table

14/08/27 17:29:37 WARN tool.BaseSqoopTool: --hive-partition-key

14/08/27 17:29:37 WARN tool.BaseSqoopTool: --hive-partition-value

14/08/27 17:29:37 WARN tool.BaseSqoopTool: --map-column-hive

14/08/27 17:29:37 WARN tool.BaseSqoopTool: Without specifying parameter --hive-import. Please note that

14/08/27 17:29:37 WARN tool.BaseSqoopTool: those arguments will not be used in this session. Either

14/08/27 17:29:37 WARN tool.BaseSqoopTool: specify --hive-import to apply them correctly or remove them

14/08/27 17:29:37 WARN tool.BaseSqoopTool: from command line to remove this warning.

14/08/27 17:29:37 INFO tool.BaseSqoopTool: Please note that --hive-home, --hive-partition-key,

14/08/27 17:29:37 INFO tool.BaseSqoopTool: hive-partition-value and --map-column-hive options are

14/08/27 17:29:37 INFO tool.BaseSqoopTool: are also valid for HCatalog imports and exports

执行Job：

[email protected]:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop job --exec incretest

注意日志中显示的SQL语句：

14/08/27 17:36:23 INFO db.DataDrivenDBInputFormat: BoundingValsQuery: SELECT MIN(ID), MAX(ID) FROM FBI_SQOOPTEST WHERE ( LASTMODIFIED >= TO_DATE(‘2014/8/27 13:00:00‘,
‘YYYY-MM-DD HH24:MI:SS‘) AND LASTMODIFIED < TO_DATE(‘2014-08-27 17:36:23‘, ‘YYYY-MM-DD HH24:MI:SS‘) )

其中，LASTMODIFIED的下界是创建job的语句中指定的，上界是当前时间2014-08-27
17:36:23。

验证：

hive> select * from incretest;

2 lion 2014-08-27

Time taken: 0.085 seconds, Fetched: 1 row(s)

然后我向Oracle中插入一条数据：

再执行一次：

[email protected]:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop job --exec incretest

日志中显示的SQL语句：

14/08/27 17:47:19 INFO db.DataDrivenDBInputFormat: BoundingValsQuery: SELECT MIN(ID), MAX(ID) FROM FBI_SQOOPTEST WHERE ( LASTMODIFIED >= TO_DATE(‘2014-08-27 17:36:23‘,
‘YYYY-MM-DD HH24:MI:SS‘) AND LASTMODIFIED < TO_DATE(‘2014-08-27 17:47:19‘, ‘YYYY-MM-DD HH24:MI:SS‘) )

其中，LASTMODIFIED的下界是上一次执行该job的上界，也就是说，Sqoop的“Saved Jobs”机制对于增量导入类Job，自动记录了上一次的执行时间，并自动将该时间赋值给下一次执行的--last-value参数！也就是说，我们只需要通过crontab设定定期执行该job即可，job中的--last-value将被“Saved
Jobs”机制自动更新以实现真正意义的增量导入。

以上Oracle表中新增的数据被成功插入Hive表中。

再次向oracle表中新增一条数据，再次执行该job，情况依旧，日志中显示上一次的上界自动成为本次导入的下界：

14/08/27 17:59:34 INFO db.DataDrivenDBInputFormat: BoundingValsQuery: SELECT MIN(ID), MAX(ID) FROM FBI_SQOOPTEST WHERE ( LASTMODIFIED >= TO_DATE(‘2014-08-27 17:47:19‘, ‘YYYY-MM-DD
HH24:MI:SS‘) AND LASTMODIFIED < TO_DATE(‘2014-08-27 17:59:34‘, ‘YYYY-MM-DD HH24:MI:SS‘) )

时间： 2024-10-04 02:45:50

【甘道夫】Sqoop原生增量导入特性探秘

【甘道夫】Sqoop原生增量导入特性探秘的相关文章

【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ，并更新Hive中的主表

【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96，并自动生成组合行键

【甘道夫】Sqoop1.99.3基础操作--导入Oracle的数据到HDFS

【甘道夫】使用sqoop-1.4.4.bin__hadoop-2.0.4-alpha将Oracle11g数据导入HBase0.96

【甘道夫】实现Hive数据同步更新的shell脚本

【甘道夫】Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】

【甘道夫】Win7环境下Eclipse连接Hadoop2.2.0

【甘道夫】HBase基本数据操作详解【完整版，绝对精品】

【甘道夫】Hadoop2.4.1尝鲜部署+完整版配置文件