Sqoop2 Intermediate representation

Sqoop2Intermediate representation

在Sqoop2的connector中提供了自己的map处理,map用于导入数据到HDFS。因为这段代码将完全被connector维护,所以,我们需要找到一个适用所有connector和所有情况的中间格式(map output)。本文的目标是比较不同的中间数据格式(intermediate representation),以使我们为Sqoop2选择一个合适的。

Current solutions

我们已经找到的一些方法。不是重新发明轮子,本文包括已经存在的数据表示的方法的概要。

MySQL‘s mysqldump format

值的逗号分隔的列表出现在一行文本中。不同的数据类型像下面这样编码:


Data type


Serialized as


DATETIME


String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09)


TIMESTAMP


String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09)


DATE


String with format YYYY-MM-DD (2012-01-01)


TIME


String with format HH:MM:DD (09:09:09)


ENUM


String with enumerated value


SET


String with comma separated enumerated values


BIT


String (array of bites rounded up to 1 byte, 20 bits are rounded to 24 bits/3 bytes)


CHAR(varchar, text, blob)


String


FLOAT (double, ...)


Direct value, might be in scientific notation (666.6, 5.5e-39). MySQL is not supporting NaN and +/- Inf.


INT(small, big, ...)


Direct value (666)


DECIMAL(fixed, ...)


Direct value (66.6)


BOOL


Direct number (1 or 0)

DATE和DATETIME类型返回相同的内容(没有时区的转换),但是TIMESTAMP总是以UTC方式保存,自动转换为相关的时区。明确的时区描述似乎不是输出的一部分。

丢失的值用NULL常量代替(NULL不是一个字符串常量,因此不能被引用)。字符串有非常简单的编码方式,除了下面的byte,大多数字符直接打印:


Byte 


Written as 


0x00


\0


0x0A


\n


0x0D


\r


0x1A


\Z


0x22


\"


0x27


\‘


0x5C


\ \ (no space)

例如:

0,‘Hello world‘,‘Jarcec\‘s notes‘,NULL,66.6,‘2012-06-06 06:06:06‘

PostgreSQL‘s pg_dump format

与MySql dump格式的情况类似,数据被一行文本实例代表,多个列将被逗号分隔。字符串用单引号(例如‘String’)。所有的字符直接打印,除了单引号翻倍的时候,例如两个单引号代表,一个单引号在字符串内,并且字符串没有结束(例如:’Jarcec’’s notes’)。一个单引号需要用4个单引号表示,’’’’只代表一个’。Null(0x00)不允许在字符串常量内部。二进制常量也可在单引号被引用,但是会被转换为16就进制,带有\x前缀,例如’\x4d7953514c’代表字符串’MySQL’(被保存在二进制列)。


Data type 


Serialized as 


INT (and all variants)


Direct value (666)


NUMERIC


Direct value (66.60)


REAL(and all variants)


Direct value (66.5999985, 55e55) or string constant for special cases  (‘Infinity‘, ‘-Infinity‘, ‘NaN‘)


VARCHAR(text, ...)


String


CHAR


String, unused positions at the end are filled with spaces


TIMESTAMP(date, time, ...)


String in format YYYY-MM-DD HH:MM:SS.ZZZZZZ (Date and hour part)


TIMESTAMP with time zone (and others)


String in format YYY-MM-DD HH:MM:SS.ZZZZZZ[+-]XX (‘2012-07-03 14:07:11.876239+02‘)


BOOLEAN


Constants true and false (not quoted as a String)


ENUM


String


ARRAY


String that contains special structure - ‘{ITEM1, ITEM2, ITEM3}‘, ITEMX itself might be in separate quotes if needed.

编码示例(一行数据):

666, 66.60, ‘jarcec‘, ‘Jarcec‘‘snotes‘, ‘2012-07-0314:07:11.876239‘, true, ‘{1,2,

3}‘, NULL, ‘\x4d7953514c‘

Microsoft SQL Server‘s bcp utility

SQL Server bcp utility 默认产生二进制输出,这将使输出非常难理解。幸运的是,它可以被强制产生字符输出用命令行切换”-c“。在这种情况下,bcp工具将产生CSV文件,行分隔符可以用命令行’-t‘参数指定(默认是tab),类似地,可以使用”-r”指定行分隔符(默认是new line)。

下面是不同数据类型的概述:


Data type


Serialized as


VARCHAR(nvarchar, char,... )


Directly as it without any encoding, empty string is represented as zero byte


TIME


Constant in format HH:MM:DD.ZZZZZZ (01:01:01.0000000)


NUMERIC (decimal, ...)


Direct value (666.66)


NULL


Empty or missing value (for example when using comma as separator - ,,)


INT (and it‘s variants)


Direct value (666)


FLOAT(real, ...)


Direct value(33.299999999999997)


DATETIME


Constant in format YYYY-MM-DD HH:MM:DD.ZZZ (2012-06-06 01:01:01.000)


DATE


Constant in format YYYY-MM-DD (2012-01-01)

注意:字符串的列不允许包含行和列分隔符,这其实相当复杂的。

编码示例(这是一行数据):

35,15.20,33.299999999999997,2012-06-06,2012-06-06 01:01:01.000,01:01:01.0000000,jarcec‘scomment with, comma

AVRO

我们也可以使用AVRO作为中间数据的格式。Avro只支持有限的数据类型,所以我们必须自己编码一些类型(例如,我们可能用上边提到的类似的格式将Date类型编码成String类型)。Avro支持的格式可在下面的网址中查到:http://avro.apache.org/docs/current/spec.html#schema_primitive。Connector中mapper代码的示例将会是:

GenericRecordBuilderbuilder = new GenericRecordBuilder(getSchemaSomehow());

builder.set("column1",value1);

builder.set("columnX",valueX);

context.write(new AvroKey(builder.build()), NullWritable.get());

Netezza

我没有发现任何特别的数据导出工具。推荐使用nzsqp,保存输出到一个文件,也就是生成一个类似于mysql client标准输出的表格。

示例输出:

ID| TXT

----+------

2 | cau

1 | ahoj

(2 rows)

Teradata

Fast export utility compatibility

我们也研究了不同类型的快速导出工具的兼容性。

mysqldump –compatible

mysqldump工具包含一个参数 –compatible,接受参数”postgresql“。但是这个参数看起来不是有效的,因为使用此参数跟不使用时输出几乎一样。

1.      二进制常量很可能失败

2.      带时区信息的DataTime列将会获取服务器的默认时区

时间: 2024-10-24 03:25:24

Sqoop2 Intermediate representation的相关文章

iOS安装包瘦身的那些事儿

在我们提交安装包到App Store的时候,如果安装包过大,有可能会收到类似如下内容的一封邮件: 收到这封邮件的时候,意味着安装包在App Store上下载的时候,有的设备下载的安装包大小会超过100M.对于超过100M的安装包,只能在WIFI环境下下载,不能直接通过4G网络进行下载. 在这里,我们提交App Store的安装包大小为67.6MB,在App Store上显示的下载大小和实际下载下来的大小,我们通过下表做一个对比: iPhone型号 系统 AppStore 显示大小 下载到设备大小

DL论文

论文:Deeply-Recursive Convolutional Network for Image Super-Resolution 摘要: 提出网络DRCN:deeply-recusrive convolutional network.特点:增加递归层可在不引入额外卷积层(引入新参数)的情况下提高性能.缺点:由于梯度消失,利用标准梯度下降训练DRCN很难.两种解决训练的方案:递归监督(recursive-supervision)和skip-connection. 1.介绍 1)对于supe

java字节码理解-入门

前记:作为一名JAVA Developer,每次打开Eclipse,查找一个没有源码的类时,都会看到一个这样的画面: 大意是:这个jar文件,没有附带源码.紧接着后面的就看不懂了,很好奇下面的一部分是什么东东. 原来是大名鼎鼎的java bytecode,那么如何读懂这些天书一样的代码呢?在IBM的网站上有一篇好文章,特地抄了下来. http://www.ibm.com/developerworks/library/it-haggar_bytecode/index.html Java bytec

Impala中的代码生成技术

Cloudera Impala是一种为Hadoop生态系统打造的开源MPP(massive parallel processing)数据库,它主要为分析型查询负载而设计,而非OLTP.Impala能最大限度地利用现代硬件和高效查询执行的最新技术.LLVM下的运行时代码生成就是用来提升执行性能的技术之一. LLVM简介 LLVM是一个编译器及相关工具的库(toolchain),它不同于独立应用式(stand-alone)的传统编译器,LLVM是模块化且可重用的.它允许Impala这样的应用在运行的

Phalcon之缓存对象关系映射(Caching in the ORM)

现实中的每个应用都不同,一些应用的模型数据经常改变而另一些模型的数据几乎不同.访问数据库在很多时候对我们应用的来说 是个瓶颈.这是由于我们每次访问应用时都会和数据库数据通信,和数据库进行通信的代价是很大的.因此在必要时我们可以通过增加 缓存层来获取更高的性能. 本章内容的重点即是探讨实施缓存来提高性能的可行性.Phalcon框架给我们提供了灵活的缓存技术来实现我们的应用缓存. 缓存结果集(Caching Resultsets)? 一个非常可行的方案是我们可以为那些不经常改变且经常访问的数据库数据

【等待事件】等待事件系列(5.1)--Enqueue(队列等待)

[等待事件]等待事件系列(5.1)--Enqueue(队列等待)   1  BLOG文档结构图   2  前言部分   2.1  导读和注意事项 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~: ① Enqueue队列等待 ② Enq数据字典 ③ enq: AE - lock ④ enq: MR锁 ⑤ enq: DX - contention ⑥ enq: SQ - contention 序列等待     2.2  相关参考文章链接 [推

为什么Enable BitCode(Xcode7)真机测试要修改为 NO?

随着 Xcode7的面世,我们都清楚的知道,他可以不通过https://developer.apple.com中的测试证书就可以真机测试了,对于我们开发者来说这是一个很好地事情,但是也会出现一些问题. 我们在做项目的时候,或多或少的会用的到第三方类库,那么问题来了,当你用 xcode在真机(iOS 8.3)上运行一下工程,结果发现工程编译不过.看了下问题,报的是以下错误: ld: ‘/Users/**/Framework/SDKs/PolymerPay/Library/mobStat/lib**

现代编译原理--第六章(中间树 IR Tree 含源码)

(转载请表明出处   http://www.cnblogs.com/BlackWalnut/p/4559717.html ) 这一章,就虎书而言,理论知识点是及其少的,就介绍了为什么要有一个中间表示树.看下面这张图就能理解为什么了. 但是章的代码量却是挺多的.在写代码之前,如果不懂整个代码的布局,是很难了解书上那写代码是对应那些功能,以及书上没有给出的代码,我应该这么完善.那么,我就我自己的理解来说一下到目前为止(翻译成中间表示树以后,编译器的前端就算基本完成了),整个代码的布局是什么样. 首先

[zz]Java中的instanceof关键字

1.What is the 'instanceof' operator used for? stackoverflow的一个回答:http://stackoverflow.com/questions/7313559/what-is-the-instanceof-operator-used-for instanceof keyword is a binary operator used to test if an object (instance) is a subtype of a given