hive 存储格式

hive有textFile,SequenceFile,RCFile三种文件格式。

textfile为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。

SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,

然后再从textfile表中用insert导入到SequenceFile,RCFile表中。

create table zone0000tf(ra int, dec int, mag int) row format delimited fields
terminated by ‘|‘;
create table zone0000rc(ra int, dec int, mag int) row
format delimited fields terminated by ‘|‘ stored as rcfile;

load data
local inpath ‘/home/cq/usnoa/zone0000.asc ‘ into table zone0000tf;
insert
overwrite table zone0000rc select * from zone0000tf;(begin a job)

File Format
































 

TextFile

SequenceFIle

RCFFile

Data type

Text Only

Text/Binary

Text/Binary

Internal Storage Order

Row-based

Row-based

Column-based

Compression

File Based

Block Based

Block Based

Splitable

YES

YES

YES

Splitable After Compression

No

YES

YES

时间: 2024-10-06 01:39:21

hive 存储格式的相关文章

好程序员大数据学习路线之hive存储格式

好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fileformat=TextFile; 默认存储格式为:textfile textFile:普通文本存储,不进行压缩.查询效率较低.1.sequencefile:hive提供的二进制序列文件存储,天生压缩.sequeceFile 和 rcfile都不允许使用load方式加载数据.需要使用insert 方

hive存储格式

hive文件的存储格式:textfile.sequencefile.rcfile.自定义格式 1. textfile textfile,即是文本格式,默认格式,数据不做压缩,磁盘开销大,数据解析开销大 对应hive API为org.apache.hadoop.mapred.TextInputFormat和org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat. 2.sequencefile sequencefile,是Hadoop提供

hive知识点总结

1 hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀.业务数据本身的特.建表时考虑不周.等原因造成的reduce 上的数据量差异过大. 1).key分布不均匀; 2).业务数据本身的特性; 3).建表时考虑不周; 4).某些SQL语句本身就有数据倾斜; 如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值. 解决方案 1>.参数调节: hive.map.aggr = true hive.groupby

[Spark]-结构化数据查询之数据源篇

7. 数据源 Spark-SQL 支持通过Dataframe接口对各种数据源进行操作 各种数据源的加载&保存 数据转换(relational transformations) 注册临时视图(temporary view),来允许SQL的形式直接对临时视图进行操作 7.1  数据源加载 Spark-SQL的默认数据源为parquet(spark.sql.sources.default设置),一些数据源加载的例子如下: /** * 加载parquet数据源 */ spark.read.load(&qu

hive文件存储格式

hive在建表是,可以通过'STORED AS FILE_FORMAT' 指定存储文件格式 例如: [plain] view plain copy > CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' > STORED AS TEXTFILE > LOCATION '/data/test'; 指定文件存储格式为"TEXTFI

关于hive的存储格式

1.存储格式 textfile rcfile orc parquet 2.存储方式 按行存储 ->textfile 按列存储 ->parquet 3.压缩比 4.存储textfile的原文件 并加载数据 5.大小 6.保存为tectfile,经过mapreduce 7.结果的大小 8.保存为orc格式 9.大小 10.存储为parquet 11.大小 12.使用命令求大小  bin/hdfs dfs -du -s -h /user/hive/warehouse/track_log.db/yhd

Hive学习之路 (六)Hive SQL之数据类型和存储格式

一.数据类型 1.基本数据类型 Hive 支持关系型数据中大多数基本数据类型 类型 描述 示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数,-32768~32767 1S int 4个字节的带符号整数 1 bigint 8字节带符号整数 1L float 4字节单精度浮点数 1.0 double 8字节双精度浮点数 1.0 deicimal 任意精度的带符号小数 1.0 String 字符串,

【图解】Hive文件存储格式

摘自:https://blog.csdn.net/xueyao0201/article/details/79103973 引申阅读原理篇: 大数据:Hive - ORC 文件存储格式 大数据:Parquet文件存储格式 原文地址:https://www.cnblogs.com/thousandzhang/p/9749254.html

HIVE数据类型及存储格式

https://www.cnblogs.com/qingyunzong/category/1191578.html一.数据类型1.基本数据类型Hive 支持关系型数据中大多数基本数据类型boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数,-32768~32767 1S int 4个字节的带符号整数 1 bigint 8字节带符号整数 1L float 4字节单精度浮点数 1.0 double 8字节双