Sqoop2 Intermediate representation
来源:互联网 发布:c语言预处理 编辑:程序博客网 时间:2024/06/16 12:58
Sqoop2Intermediate representation
在Sqoop2的connector中提供了自己的map处理,map用于导入数据到HDFS。因为这段代码将完全被connector维护,所以,我们需要找到一个适用所有connector和所有情况的中间格式(map output)。本文的目标是比较不同的中间数据格式(intermediate representation),以使我们为Sqoop2选择一个合适的。
Current solutions
我们已经找到的一些方法。不是重新发明轮子,本文包括已经存在的数据表示的方法的概要。
MySQL's mysqldump format
值的逗号分隔的列表出现在一行文本中。不同的数据类型像下面这样编码:
Data type
Serialized as
DATETIME
String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09)
TIMESTAMP
String with format YYYY-MM-DD HH:MM:DD (2012-01-01 09:09:09)
DATE
String with format YYYY-MM-DD (2012-01-01)
TIME
String with format HH:MM:DD (09:09:09)
ENUM
String with enumerated value
SET
String with comma separated enumerated values
BIT
String (array of bites rounded up to 1 byte, 20 bits are rounded to 24 bits/3 bytes)
CHAR(varchar, text, blob)
String
FLOAT (double, ...)
Direct value, might be in scientific notation (666.6, 5.5e-39). MySQL is not supporting NaN and +/- Inf.
INT(small, big, ...)
Direct value (666)
DECIMAL(fixed, ...)
Direct value (66.6)
BOOL
Direct number (1 or 0)
DATE和DATETIME类型返回相同的内容(没有时区的转换),但是TIMESTAMP总是以UTC方式保存,自动转换为相关的时区。明确的时区描述似乎不是输出的一部分。
丢失的值用NULL常量代替(NULL不是一个字符串常量,因此不能被引用)。字符串有非常简单的编码方式,除了下面的byte,大多数字符直接打印:
Byte
Written as
0x00
\0
0x0A
\n
0x0D
\r
0x1A
\Z
0x22
\"
0x27
\'
0x5C
\ \ (no space)
例如:
0,'Hello world','Jarcec\'s notes',NULL,66.6,'2012-06-06 06:06:06'
PostgreSQL's pg_dump format
与MySql dump格式的情况类似,数据被一行文本实例代表,多个列将被逗号分隔。字符串用单引号(例如‘String’)。所有的字符直接打印,除了单引号翻倍的时候,例如两个单引号代表,一个单引号在字符串内,并且字符串没有结束(例如:’Jarcec’’s notes’)。一个单引号需要用4个单引号表示,’’’’只代表一个’。Null(0x00)不允许在字符串常量内部。二进制常量也可在单引号被引用,但是会被转换为16就进制,带有\x前缀,例如’\x4d7953514c’代表字符串’MySQL’(被保存在二进制列)。
Data type
Serialized as
INT (and all variants)
Direct value (666)
NUMERIC
Direct value (66.60)
REAL(and all variants)
Direct value (66.5999985, 55e55) or string constant for special cases ('Infinity', '-Infinity', 'NaN')
VARCHAR(text, ...)
String
CHAR
String, unused positions at the end are filled with spaces
TIMESTAMP(date, time, ...)
String in format YYYY-MM-DD HH:MM:SS.ZZZZZZ (Date and hour part)
TIMESTAMP with time zone (and others)
String in format YYY-MM-DD HH:MM:SS.ZZZZZZ[+-]XX ('2012-07-03 14:07:11.876239+02')
BOOLEAN
Constants true and false (not quoted as a String)
ENUM
String
ARRAY
String that contains special structure - '{ITEM1, ITEM2, ITEM3}', ITEMX itself might be in separate quotes if needed.
编码示例(一行数据):
666,
66.60,
'jarcec',
'Jarcec''snotes',
'2012-07-0314:07:11.876239',
true,
'{1,2,
3}', NULL,
'\x4d7953514c'
Microsoft SQL Server‘s bcp utility
SQL Server bcp utility 默认产生二进制输出,这将使输出非常难理解。幸运的是,它可以被强制产生字符输出用命令行切换”-c“。在这种情况下,bcp工具将产生CSV文件,行分隔符可以用命令行’-t‘参数指定(默认是tab),类似地,可以使用”-r”指定行分隔符(默认是new line)。
下面是不同数据类型的概述:
Data type
Serialized as
VARCHAR(nvarchar, char,... )
Directly as it without any encoding, empty string is represented as zero byte
TIME
Constant in format HH:MM:DD.ZZZZZZ (01:01:01.0000000)
NUMERIC (decimal, ...)
Direct value (666.66)
NULL
Empty or missing value (for example when using comma as separator - ,,)
INT (and it's variants)
Direct value (666)
FLOAT(real, ...)
Direct value(33.299999999999997)
DATETIME
Constant in format YYYY-MM-DD HH:MM:DD.ZZZ (2012-06-06 01:01:01.000)
DATE
Constant in format YYYY-MM-DD (2012-01-01)
注意:字符串的列不允许包含行和列分隔符,这其实相当复杂的。
编码示例(这是一行数据):
35,15.20,33.299999999999997,2012-06-06,2012-06-06
01:01:01.000,01:01:01.0000000,jarcec'scomment with, comma
AVRO
我们也可以使用AVRO作为中间数据的格式。Avro只支持有限的数据类型,所以我们必须自己编码一些类型(例如,我们可能用上边提到的类似的格式将Date类型编码成String类型)。Avro支持的格式可在下面的网址中查到:http://avro.apache.org/docs/current/spec.html#schema_primitive。Connector中mapper代码的示例将会是:
GenericRecordBuilderbuilder = new GenericRecordBuilder(getSchemaSomehow());
builder.set("column1",value1);
builder.set("columnX",valueX);
context.write(new AvroKey(builder.build()), NullWritable.get());
Netezza
我没有发现任何特别的数据导出工具。推荐使用nzsqp,保存输出到一个文件,也就是生成一个类似于mysql client标准输出的表格。
示例输出:
ID| TXT
----+------
2 | cau
1 | ahoj
(2 rows)
Teradata
Fast export utility compatibility
我们也研究了不同类型的快速导出工具的兼容性。
mysqldump –compatible
mysqldump工具包含一个参数 –compatible,接受参数”postgresql“。但是这个参数看起来不是有效的,因为使用此参数跟不使用时输出几乎一样。
1. 二进制常量很可能失败
2. 带时区信息的DataTime列将会获取服务器的默认时区
- Sqoop2 Intermediate representation
- 安装sqoop2
- Sqoop2基础
- sqoop2 调研
- sqoop2安装
- SQOOP2使用
- sqoop2安装
- sqoop2 尝试
- Sqoop2-1:Sqoop2 安装配置
- Intermediate Perl
- sqoop2 1.99.3安装
- SQOOP2 源代码build
- Sqoop2安装记录
- Sqoop2远程调试
- 编译Sqoop2错误解决
- Sqoop2安装记录
- sqoop1和sqoop2
- Sqoop2 Rest API
- TabHost的使用
- cocos2d-x 如何管理游戏资源
- cocos2d-x基本知识点(7):动画
- Linux命令:cp 命令--创建文件和目录的副本 mv命令--移动或重命名文件/目录
- C++关键字
- Sqoop2 Intermediate representation
- Android 上传图片
- 昆仑叶哲华,你真是让我摸不着头脑
- Android高效加载大图、多图解决方案,有效避免程序OOM
- android项目 之 来电管家(3) ----- 添加与删除黑名单
- linux进程间通信的几种机制的比较及适用场合
- jquery选择器 之 获取父级元素、同级元素、子元素
- 阿里hr面面试问题
- 稳定排序和不稳定排序