Hive Serde - CSV、TSV

CSV

hive-0.14.0内置支持CSV Serde，以前的版本需要引入第三方库的jar包（http://https://github.com/ogrodnek/csv-serde）

现在有个文本文件a.csv（从数据库中导出的数据通常都是这种格式），里面的内容如下：


[[email protected] ~]$ more a.csv 
‘1‘,‘zhangsan‘,‘20‘,‘beijing,shanghai,shandong‘,1
‘2‘,‘lisi‘,‘22‘,‘guangdong,hainan‘,1
‘3‘,‘wangwu‘,‘23‘,‘shandong,jiangsu,xizang‘,0

现在需要将它加载到hive中进行处理，步骤如下：

1）引入第三方jar包（0.14之前的版本）


add jar /xx/yy/zz.jar;

2）创建表


create table t_csv(id int, name string, address string, sex tinyint) row format serde ‘org.apache.hadoop.hive.serde2.OpenCSVSerde‘ with serdeproperties("separatorChar"=",","quoteChar"="‘","escapeChar"= "\\") stored as textfile;

separatorChar是字段之间的分隔符

quoteChar是包括字段的符号，比如单引号、双引号

escapeChar是不处理的字符

3）加载数据


load data local inpath ‘${env:HOME}/a.csv‘ into table t_csv;

4）查询


select name, address from t_csv;

TSV

目前没有专门Tsv Serde的jar包，不过可以使用CSV Serde，设置它的separatorChar=‘\t‘

来自为知笔记(Wiz)

时间： 2024-11-02 06:55:47

Hive Serde - CSV、TSV的相关文章

PHP如何自动识别第三方Restful API的内容，自动渲染成 json、xml、html、serialize、csv、php等数据

如题,PHP如何自动识别第三方Restful API的内容,自动渲染成 json.xml.html.serialize.csv.php等数据? 其实这也不难,因为Rest API也是基于http协议的,只要我们按照协议走,就能做到自动化识别 API 的内容,方法如下: 1.API服务端要返回明确的 http Content-Type头信息,如 Content-Type: application/json; charset=utf-8 Content-Type: application/xml;

【转】Hive内部表、外部表

hive内部表.外部表区别自不用说,可实际用的时候还是要小心. 1. 内部表: [sql] view plaincopyprint? create table tt (name string , age string) location '/input/table_data'; 此时,会在hdfs上新建一个tt表的数据存放地,例如,笔者是在 hdfs://master/input/table_data 上传hdfs数据到表中: [sql] view plaincopyprint? load da

CSV、JSON文件导入到mongo数据库

首先生成一个文本文件,可以是json或者csv的,每行一条数据,很好整理吧,用一般的文本编辑器或者从office中都可以生成. 然后执行下面的导入命令: /usr/local/mongodb/bin/mongoimport -d cms -c cms_tags_20120727 –type csv –file /tmp/tag0810.csv -h localhost -port 11111 –upsert -f name 参数说明: -d 数据库名 -c collection名 –type 文

hive 的分隔符、orderby sort by distribute by的优化

一.Hive 分号字符分号是SQL语句结束标记,在HiveQL中也是,但是在HiveQL中,对分号的识别没有那么智慧,例如: select concat(cookie_id,concat(';','zoo')) fromc02_clickstat_fatdt1 limit 2; FAILED: Parse Error: line 0:-1 cannot recognize input'<EOF>' in function specification 可以推断,Hive解析语句的时候,只要遇到

Hive 10、Hive的UDF、UDAF、UDTF

Hive自定义函数包括三种UDF.UDAF.UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出.Count/max/min UDTF(User-Defined Table-Generating Functions) 一进多出,如lateral view explore() 使用方式 :在HIVE会话中add 自定义函数的jar文件,然后创建function继而使用函数

Jmeter之csv、用户自定义变量以及Query Type分析（八）

很多童鞋不知道对于Jmeter的Query Type 不知道选哪个,为什么选,怎么选! 下面这边做个简单的分析, 那么首先什么是CSV Data Set Config,有什么用呢? CSV Data Set Config是用来插入引用文件的一个配置元件,假设说童鞋们在做测试的时候,需要插入多条数据,插入上百条数据的时候,如果用select语句插入的话就显得非常麻烦,那么就可以用csv来完成,也就是所谓的批量取数据 Filename:就是你要导入的文件地址(TXT文档里面写入你想要添加的批量型数据

hive增加Update、Delete支持

一.配置hive-site.xml二.建表三.操作四.总结一.配置hive-site.xml CDH版本先进入Hive配置页选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项点击+号,增加如下配置项 hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynamic.partition.mode = nonstrict hive.txn.manager = org.a

深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)

一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商. Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要. Hive作业的规模决定着优化层级,一个Hive作业的优化和一万的Hive作业的优化截然不同. 拥有1万多个Hive作业的大电商如何进行Hiv

hive元数据库配置、metadata

一.什么是hive元数据? hive元数据就是hive的一些基本的元素,主要包括hive表的基本属性,如下 (1)hive表的数据库名.表名.字段名称与类型.分区字段与类型 (2)表的分区,分区的属性location等 (3)serdeproperties, tblproperties等等可以通过 desc formatted tablename 查看表有哪些属性二.hive默认元数据库Derby(嵌入模式) hive-default.xml通过如下配置设置 <name>javax.jdo