[Hive_add_9] Hive 的存储格式

0. 说明

1. Hive的存储格式

　　1.1 textfile

　　行式存储

　　1.2 sequencefile

　　二进制的k-v对，行式存储

　　配置块压缩

　　SET hive.exec.compress.output=true;
　　SET io.seqfile.compression.type=BLOCK;

　　1.3 rcfile

　　列式存储

　　先将数据进行横切(4M),成为行组，行组内又纵向切割分为多个字段

　　1.4 orc

　　列式存储

　　比 rc 文件更大的块(256M),优化磁盘的线性读取，通过指定的编码器确定数据类型并优化压缩
　　还存储了基本统计数据，比如 min，max，sum，count。。。

　　1.5 parquet

　　列式存储

　　适用范围更广(在 Hadoop 生态系统中)
　　适用于嵌套文件格式

2. 测试

　　2.0 前期配置

　　设置 Hive自动使用本地模式

SET hive.exec.mode.local.auto=true;

　　输入文件大小低于此值会进入本地模式

SET hive.exec.mode.local.auto.inputbytes.max=500000000;

　　输入文件个数低于此值会进入本地模式

SET hive.exec.mode.local.auto.input.files.max=5;

　　设置seqFile使用块压缩

SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;

　　2.1 建表

create table user_seq(id int, name string, pass string, email string, nickname string) stored as SEQUENCEFILE;

create table user_rc(id int, name string, pass string, email string, nickname string) stored as rcfile;

create table user_orc2(id int, name string, pass string, email string, nickname string) stored as orc tblproperties("orc.compress"="ZLIB");

create table user_parquet2(id int, name string, pass string, email string, nickname string) stored as parquet tblproperties("parquet.compression"="GZIP");

　　2.2 插入数据

　　导入大文件

load data local inpath ‘/home/centos/files/user_nopar.txt‘ into table user_nopar;

　　插入数据

insert into user_seq select * from user_nopar;

insert into user_rc select * from user_nopar;

insert into user_orc2 select * from user_nopar;

insert into user_parquet2 select * from user_nopar;

　　2.3 性能比较

[Hive_add_9] Hive 的存储格式

原文地址：https://www.cnblogs.com/share23/p/10260168.html

时间： 2024-10-14 01:10:44

[Hive_add_9] Hive 的存储格式的相关文章

hive文件存储格式

hive在建表是,可以通过'STORED AS FILE_FORMAT' 指定存储文件格式例如: [plain] view plain copy > CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' > STORED AS TEXTFILE > LOCATION '/data/test'; 指定文件存储格式为"TEXTFI

Hive文件存储格式和hive数据压缩

一.存储格式行存储和列存储二.Hive文件存储格式三.创建语句和压缩一.存储格式行存储和列存储行存储可以理解为一条记录存储一行,通过条件能够查询一整行数据. 列存储,以字段聚集存储,可以理解为相同的字段存储在一起. 二.Hive文件存储格式 TEXTFILE, Hive数据表的默认格式,存储方式:行存储. 可以使用Gzip压缩算法,但压缩后的文件不支持split 在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍. SEQUEN

大数据--hive文件存储格式

一.hive文件存储格式 Hive支持的存储数的格式主要有:TEXTFILE .SEQUENCEFILE.ORC.PARQUET. 上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储. 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快. 列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量:每个字段的数据类型一定是相同

关于hive的存储格式

1.存储格式 textfile rcfile orc parquet 2.存储方式按行存储 ->textfile 按列存储 ->parquet 3.压缩比 4.存储textfile的原文件并加载数据 5.大小 6.保存为tectfile,经过mapreduce 7.结果的大小 8.保存为orc格式 9.大小 10.存储为parquet 11.大小 12.使用命令求大小 bin/hdfs dfs -du -s -h /user/hive/warehouse/track_log.db/yhd

【图解】Hive文件存储格式

摘自:https://blog.csdn.net/xueyao0201/article/details/79103973 引申阅读原理篇: 大数据:Hive - ORC 文件存储格式大数据:Parquet文件存储格式原文地址:https://www.cnblogs.com/thousandzhang/p/9749254.html

好程序员大数据学习路线之hive存储格式

好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fileformat=TextFile; 默认存储格式为:textfile textFile:普通文本存储,不进行压缩.查询效率较低.1.sequencefile:hive提供的二进制序列文件存储,天生压缩.sequeceFile 和 rcfile都不允许使用load方式加载数据.需要使用insert 方

详解Hive的架构、工作原理及安装步骤

一.Hive是什么? Hive 是基于 Hadoop 构建的一套数据仓库分析系统,它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的数据, 可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行,通过自己的 SQL 去查询分析需要的内容,这套 SQL 简称 Hive SQL. 二.理解Hive 架构 Hive 架构可以分为四部分. 用户接口 Hive 对外提供了三种服务模式,即 Hive

hive的数据压缩

Hive文件存储格式包括以下几类: 1.TEXTFILE 2.SEQUENCEFILE 3.RCFILE 4.ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理. SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入SequenceFile,RCFile,ORCFile表中. 更多用法,一定要去看官网啊!!!

基于 Hive 的文件格式：RCFile 简介及其应用

转载自:https://my.oschina.net/leejun2005/blog/280896 Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势.不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高. 1.hadoop 文件格式简介目前 hadoop 中流行的文件格式有如下几种: (1)SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件