Sqoop2 Intermediate representation

Sqoop2Intermediate representation

在Sqoop2的connector中提供了自己的map处理，map用于导入数据到HDFS。因为这段代码将完全被connector维护，所以，我们需要找到一个适用所有connector和所有情况的中间格式（map output）。本文的目标是比较不同的中间数据格式（intermediate representation），以使我们为Sqoop2选择一个合适的。

Current solutions

我们已经找到的一些方法。不是重新发明轮子，本文包括已经存在的数据表示的方法的概要。

MySQL‘s mysqldump format

值的逗号分隔的列表出现在一行文本中。不同的数据类型像下面这样编码：

Data type	Serialized as
DATETIME	String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09)
TIMESTAMP	String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09)
DATE	String with format YYYY-MM-DD (2012-01-01)
TIME	String with format HH:MM:DD (09:09:09)
ENUM	String with enumerated value
SET	String with comma separated enumerated values
BIT	String (array of bites rounded up to 1 byte, 20 bits are rounded to 24 bits/3 bytes)
CHAR(varchar, text, blob)	String
FLOAT (double, ...)	Direct value, might be in scientific notation (666.6, 5.5e-39). MySQL is not supporting NaN and +/- Inf.
INT(small, big, ...)	Direct value (666)
DECIMAL(fixed, ...)	Direct value (66.6)
BOOL	Direct number (1 or 0)

DATE和DATETIME类型返回相同的内容（没有时区的转换），但是TIMESTAMP总是以UTC方式保存，自动转换为相关的时区。明确的时区描述似乎不是输出的一部分。

丢失的值用NULL常量代替（NULL不是一个字符串常量，因此不能被引用）。字符串有非常简单的编码方式，除了下面的byte，大多数字符直接打印：

Byte	Written as
0x00	\0
0x0A	\n
0x0D	\r
0x1A	\Z
0x22	\"
0x27	\‘
0x5C	\ \ (no space)

例如：

0,‘Hello world‘,‘Jarcec\‘s notes‘,NULL,66.6,‘2012-06-06 06:06:06‘

PostgreSQL‘s pg_dump format

与MySql dump格式的情况类似，数据被一行文本实例代表，多个列将被逗号分隔。字符串用单引号（例如‘String’）。所有的字符直接打印，除了单引号翻倍的时候，例如两个单引号代表，一个单引号在字符串内，并且字符串没有结束（例如:’Jarcec’’s notes’）。一个单引号需要用4个单引号表示，’’’’只代表一个’。Null（0x00）不允许在字符串常量内部。二进制常量也可在单引号被引用，但是会被转换为16就进制，带有\x前缀，例如’\x4d7953514c’代表字符串’MySQL’（被保存在二进制列）。

Data type	Serialized as
INT (and all variants)	Direct value (666)
NUMERIC	Direct value (66.60)
REAL(and all variants)	Direct value (66.5999985, 55e55) or string constant for special cases (‘Infinity‘, ‘-Infinity‘, ‘NaN‘)
VARCHAR(text, ...)	String
CHAR	String, unused positions at the end are filled with spaces
TIMESTAMP(date, time, ...)	String in format YYYY-MM-DD HH:MM:SS.ZZZZZZ (Date and hour part)
TIMESTAMP with time zone (and others)	String in format YYY-MM-DD HH:MM:SS.ZZZZZZ[+-]XX (‘2012-07-03 14:07:11.876239+02‘)
BOOLEAN	Constants true and false (not quoted as a String)
ENUM	String
ARRAY	String that contains special structure - ‘{ITEM1, ITEM2, ITEM3}‘, ITEMX itself might be in separate quotes if needed.

编码示例（一行数据）：

666, 66.60, ‘jarcec‘, ‘Jarcec‘‘snotes‘, ‘2012-07-0314:07:11.876239‘, true, ‘{1,2,

3}‘, NULL, ‘\x4d7953514c‘

Microsoft SQL Server‘s bcp utility

SQL Server bcp utility 默认产生二进制输出，这将使输出非常难理解。幸运的是，它可以被强制产生字符输出用命令行切换”-c“。在这种情况下，bcp工具将产生CSV文件，行分隔符可以用命令行’-t‘参数指定（默认是tab），类似地，可以使用”-r”指定行分隔符（默认是new line）。

下面是不同数据类型的概述：

Data type	Serialized as
VARCHAR(nvarchar, char,... )	Directly as it without any encoding, empty string is represented as zero byte
TIME	Constant in format HH:MM:DD.ZZZZZZ (01:01:01.0000000)
NUMERIC (decimal, ...)	Direct value (666.66)
NULL	Empty or missing value (for example when using comma as separator - ,,)
INT (and it‘s variants)	Direct value (666)
FLOAT(real, ...)	Direct value(33.299999999999997)
DATETIME	Constant in format YYYY-MM-DD HH:MM:DD.ZZZ (2012-06-06 01:01:01.000)
DATE	Constant in format YYYY-MM-DD (2012-01-01)

注意：字符串的列不允许包含行和列分隔符，这其实相当复杂的。

编码示例（这是一行数据）：

35,15.20,33.299999999999997,2012-06-06,2012-06-06 01:01:01.000,01:01:01.0000000,jarcec‘scomment with, comma

`AVRO`

我们也可以使用AVRO作为中间数据的格式。Avro只支持有限的数据类型，所以我们必须自己编码一些类型（例如，我们可能用上边提到的类似的格式将Date类型编码成String类型）。Avro支持的格式可在下面的网址中查到：http://avro.apache.org/docs/current/spec.html#schema_primitive。Connector中mapper代码的示例将会是：

GenericRecordBuilderbuilder = new GenericRecordBuilder(getSchemaSomehow());

builder.set("column1",value1);

builder.set("columnX",valueX);

context.write(new AvroKey(builder.build()), NullWritable.get());

Netezza

我没有发现任何特别的数据导出工具。推荐使用nzsqp，保存输出到一个文件，也就是生成一个类似于mysql client标准输出的表格。

示例输出：

ID| TXT

----+------

2 | cau

1 | ahoj

(2 rows)

Teradata

Fast export utility compatibility

我们也研究了不同类型的快速导出工具的兼容性。

mysqldump –compatible

mysqldump工具包含一个参数 –compatible，接受参数”postgresql“。但是这个参数看起来不是有效的，因为使用此参数跟不使用时输出几乎一样。

1. 二进制常量很可能失败

2. 带时区信息的DataTime列将会获取服务器的默认时区

时间： 2024-10-24 03:25:24

Sqoop2 Intermediate representation

Sqoop2Intermediate representation

Current solutions

MySQL‘s mysqldump format

PostgreSQL‘s pg_dump format

Microsoft SQL Server‘s bcp utility

`AVRO`

Netezza

Teradata

Fast export utility compatibility

mysqldump –compatible

Sqoop2 Intermediate representation的相关文章

iOS安装包瘦身的那些事儿

DL论文

java字节码理解-入门

Impala中的代码生成技术

Phalcon之缓存对象关系映射（Caching in the ORM）

【等待事件】等待事件系列（5.1）--Enqueue(队列等待)

为什么Enable BitCode(Xcode7)真机测试要修改为 NO?

现代编译原理－－第六章（中间树 IR Tree 含源码）

[zz]Java中的instanceof关键字