Hive ORC和Parquet

相比传统数据库的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作,尤其是在数据列很多,但每次操作仅针对若干列进行查询和计算的情景,列式存储引擎的性价比更高。

目前在开源实现中,最有名的列式存储引擎莫过于Parquet和ORC,并且他们都是Apache的顶级项目,在数据存储引擎方面发挥着重要的作用。

本文将重点讲解ORC文件存储格式,Parquet暂不深入说明,后续抽时间整理。

1、Apache Parquet

源自于google Dremel系统,Parquet相当于GoogleDremel中的数据存储引擎,而Apache顶级开源项目Drill正是Dremel的开源实现。

Apache Parquet 最初的设计动机是存储嵌套式数据,比如Protocolbuffer,thrift,json等,将这类数据存储成列式格式,以方便对其高效压缩和编码,且使用更少的IO操作取出需要的数据,这也是Parquet相比于ORC的优势,它能够透明地将Protobuf和thrift类型的数据进行列式存储,在Protobuf和thrift被广泛使用的今天,与parquet进行集成,是一件非容易和自然的事情。除了上述优势外,相比于ORC, Parquet没有太多其他可圈可点的地方,比如它不支持update操作(数据写成后不可修改),不支持ACID等。

Hive中创建表时使用Parquet数据存储格式:

create table parquet_table(id int,name string) stored as parquet;

2、Apache ORC

ORC(OptimizedRow Columnar) 文件格式存储源自于RC(RecordColumnar File)这种存储格式,RC是一种列式存储引擎,对schema演化(修改schema需要重新生成数据)支持较差,而ORC是对RC改进,但它仍对schema演化支持较差,主要是在压缩编码,查询性能方面做了优化。RC/ORC最初是在Hive中得到使用,最后发展势头不错,独立成一个单独的项目。Hive 1.x版本对事务和update操作的支持,便是基于ORC实现的(其他存储格式暂不支持)。ORC发展到今天,已经具备一些非常高级的feature,比如支持update操作,支持ACID,支持struct,array复杂类型。你可以使用复杂类型构建一个类似于parquet的嵌套式数据架构,但当层数非常多时,写起来非常麻烦和复杂,而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型。

Hive中创建表时使用ORC数据存储格式:

create table orc_table (id int,name string) stored as orc;

3、Parquet与ORC对比


Parquet

http://parquet.apache.org


Orc

http://orc.apache.org


发展状态


目前都是Apache开源的顶级项目,列式存储引擎


开发语言


Java


主导公司


Twitter/Cloudera


Hortonworks


列编码


支持多种编码,字典,RLE,Delta等


支持主流编码,与Parquet类似


ACID


不支持


支持ACID事务


修改操作(update,delete)


不支持


支持


支持索引

(统计信息)


粗粒度索引

block/group/chunk级别统计信息


粗粒度索引

file/stripe/row级别统计信息,不能精确到列建立索引


查询性能


Orc性能更高一点


压缩比


Orc压缩比更高

下面看一张图,可以比对一下压缩率:

4、ORC

使用ORC文件格式可以提升Hive读、写与处理数据的性能。

一个ORC文件包含多个stripes(每个stripes由多组行数据组成的)一个包含辅助信息的file footer

在文件的结尾,一个postscript保存着压缩参数及被压缩的footer的长度。

一个stripes缺省大小是250MB,其大小可以扩展的长度只受HDFS的约束。

file footer包含文件中的一个记录stripes信息的列表、每个stripes中行的数目及每个列的数据类型,它也包含列级的聚合结果:count, min, max, and sum。

我们通过使用hive --orcfiledump来进行分析ORC存储文件,就可以看到这些信息:

hive --orcfiledump <path_to_file>

示例:

hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271

对于Hive 1.1,查看ORC File文件中的内容可以使用如下的方式:

hive --orcfiledump -d <path_to_file>

示例:

hive --orcfiledump -d /user/hive/warehouse/helloworld.db/test_orcfile/part-00271

从下面的ORC文件结构图可以了解相关信息:

我使用下面的命令,将ORC的分析结果输出到了orcfile文件,方便大家查看对照图分析:

hive --orcfiledump /user/hive/warehouse/helloworld.db/test_orcfile/part-00271  > orcfile

从上图中,我们知道在ORC文件中,每个Stripe包括索引数据(IndexData)、行数据(Row Data)及一个Stripe footer。

Stripe footer包含了用于流定位的目录,Row data用于表扫描。

索引数据(Index Data)包括每个列的最小与最大值,以及它们在每个列的行号,行索引项(Row index entries)记录了压缩块及解压后字节的偏移。需要注意的是,ORC索引只是被用来选择Stripe和行组,而不会被用于返回查询结果。拥有相对频繁的行索引条目,可以为了快速的数据读取而跳过一些行,缺省情况下每次最多可以跳过10000行。ORC有能力基于过滤谓词跳过非常多的行,可以使用第二关键字进行对表进行排序,以达到减少查询执行时间的效果。例如,如果主关键字是交易日期,表可以按照省份、邮编号码或者姓名进行排序,当按照省份查询记录的时候将跳过非目标省份的记录。

下面介绍如何在Hive中使用这种存储格式:

1)       支持的数据格式

  • Integer

    • boolean (1 bit)
    • tinyint (8 bit)
    • smallint (16 bit)
    • int (32 bit)
    • bigint (64 bit)
  • Floating point
    • float
    • double
  • String types
    • string
    • char
    • varchar
  • Binary blobs
    • binary
  • Date/time
    • timestamp
    • date
  • Compound types
    • struct
    • list
    • map
    • union

2)       Hive DDL

通过指定stored as orc来使用ORC存储格式:

create table orc_table (

id int,

name string

) stored as orc;

可以修改表的存储格式:

alter table simple_table set fileformat orc;

如果simple_table已经存在数据,将导致通过表查询无法访问数据。

3)       创建表时,指定ORC存储格式属性


KEY


DEFAULT


NOTES


orc.compress


ZLIB


high level compression = {NONE, ZLIB, SNAPPY}

压缩方法(NONE, ZLIB, SNAPPY)


orc.compress.size


262,144


compression chunk size

每个压缩块的字节数


orc.stripe.size


268,435,456


memory buffer size in bytes for writing

每个stripe的字节数


orc.row.index.stride


10,000


number of rows between index entries

索引项之间的行数


orc.create.index


TRUE


create indexes?

是否创建行索引


orc.bloom.filter.columns


""


comma separated list of column names


orc.bloom.filter.fpp


0.05


bloom filter false positive rate

比如,创建没有压缩的表:

CREATE TABLE orc_table (

name STRING,

age tinyint

) STORED AS ORC TBLPROPERTIES("orc.compress"="NONE");

4)       Hive涉及ORC存储文件的配置参数

·        hive.default.fileformat

指定Hive创建表的存储文件格式,默认为TextFile。

·        hive.exec.orc.default.compress

ORC的压缩编码方式,默认为ZLIB。

·        hive.exec.orc.default.buffer.size

ORC的缓冲大小,默认为262,144(256KB)。

·        hive.exec.orc.default.block.size

ORC文件的系统块大小,默认为268,435,456(256MB)

·        hive.exec.orc.zerocopy

使用zerocopy读ORC文件。Hadoop 2.3以及后续版本支持。

·        hive.orc.compute.splits.num.threads

ORC使用多少线程去并行化创建分片

hive.exec.orc.skip.corrupt.data         false

If ORC reader encounters corrupt data, this value will be used todetermine whether to skip the corrupt data or throw an exception.

The default behavioris to throw an exception.

·        hive.exec.orc.skip.corrupt.data

如果ORC读时遇到损坏的数据,此选项决定是否跳过损坏的数据,还是抛出异常。

默认是抛出异常。

·        hive.merge.orcfile.stripe.level

当hive.merge.mapfiles,hive.merge.mapredfiles或者hive.merge.tezfiles设置为true时,此时同时以ORC文件格式写表数据,设置此值为true时将快速以stripe级别合并ORC小文件。

·        其他的参数有的用的很少,大家可以参考Hive官网说明进行配置和调优。

时间: 2024-10-09 19:36:38

Hive ORC和Parquet的相关文章

RC ORC Parquet 格式比较和性能测试

RC ORC Parquet 格式比较和性能测试 作者:刘旭晖 Raymond 转载请注明出处 Email:colorant at 163.com BLOG:http://blog.csdn.net/colorant/ 为什么要比较这三者 为什么要比较,起因是为了提高Hadoop集群的存储和计算效率,尤其是离线Hive作业的效率,为什么比较的是这三者,是因为三者是目前Hive离线作业中正在大规模使用或可能大规模使用的三种主流的相对成熟的文件格式 对于ORC性能的评测,Hortonworks发过一

Parquet与ORC:高性能列式存储格式(收藏)

背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive.Spark SQL.Impala.Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile.ORC.Parquet等,本文主要从实现的角度上对比分析ORC和Parquet两种典型的列存格式,并对它们做了相应的对比测试. 列式存储 由于OLAP查

Parquet与ORC性能测试报告

一.环境说明 Hadoop集群:使用测试Hadoop集群,节点: hadoop230 hadoop231 hadoop232 hadoop233 这几台机器配置一样,具体参数可参考如下: CPU数量:2个 CPU线程数:32个 内存:128GB 磁盘:48TB 使用测试机群上的同一个队列,使用整个集群的资源,所有的查询都是无并发的. Hive使用官方的hive 1.2.1版本,使用hiveserver2的方式启动,使用本机的mysql存储元数据. 二.测试数据生成 测试数据为TPC-DS基准测试

Parquet与ORC:高性能列式存储格式

背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive.Spark SQL.Impala.Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile.ORC.Parquet等,本文主要从实现的角度上对比分析ORC和Parquet两种典型的列存格式,并对它们做了相应的对比测试. 列式存储 由于OLAP查

Hive Streaming 追加 ORC 文件

1.概述 在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大.那么,我们需要有一种方式来减少容量的成本.而在 Hive 中,有一种 ORC 文件格式可以极大的减少存储的容量成本.今天,笔者就为大家分享如何实现流式数据追加到 Hive ORC 表中. 2.内容 2.1 ORC 这里,我们首先需要知道 Hive 的 ORC 是什么.在此之前,Hive 中存在一种 RC 文件,而 ORC

hive的使用03

1.hive中的四种排序 1.1 order by :对全局进行排序,只能有一个reduce select * from hive.employee order by id; 1.2 sort by :对每一个reduce内部数据进行排序,全局结果集没有排序 set mapreduce.job.reduces=3;设置reduce的个数为3 insert overwrite local directory '/opt/data/employee_sort_by' row format delim

HADOOP docker(六):hive简易使用指南

前言1.hive简介1.1 hive组件与相应功能:1.2 hive的表类型1.3 分区表1.3 分隔符1.4 hive的数据存储2.数据类型2.1 基本数据类型2.1 复杂数据类型2.3 NULL3.基本操作3.1 数据库操作3.2 表操作3.3 视图3.4 数据导入导出3.hsql3.1 hsql基本操作3.2 hive内置函数3.2 自定义函数3.3 注册函数4.hive权限管理4.1 权限简介4.2 权限分类4.3 授权管理5.hive优化 前言 本手册介绍了hive的基本知识及工作中要

HIVE简明教程

完整PDF下载:<HIVE简明教程> 前言 Hive是对于数据仓库进行管理和分析的工具.但是不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会SQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务需求所需要的东西. 但是Hive和SQL毕竟不同,执行原理.优化方法,底层架构都完全不相同. 大数据离线分析使用Hive已经成为主流,但是目前市面上Hive相关的中文书籍只有一本<Hive编程指南>,对于不懂技术的数据分析人员来说,这本书有些繁琐

Spark环境搭建(四)-----------数据仓库Hive环境搭建

Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序 Hive是什么 1)facebook开源,最初为解决海量的结构化日志数据统计问题 2)构建中Hadoop上的数据仓库 3)Hive定义了一种SQL查询语言:HQL(类似SQl但又不完全相同) 4)通常进行离线处理(采用MapReduce) 5)多种不同的底层执行引擎(Hive on