Hive-4-Hive的文件格式

Hive文件格式

1、 TextFile

 

默认文件格式

数据不做压缩,磁盘开销大,数据解析开销大,可以结合Gzip、Bzip2使用(系统自动检测,执行查询时自动解压)

数据不会被Hive切分,所以无法对数据进行并行操作

创建命令:

2、 SequenceFile

 

是Hadoop API提供的一种二进制文件支持

使用方便、可分割、可压缩的特点

支持三种压缩方式:NONE\RECORD(压缩率低)\BLOCK(建议使用)

创建命令:

第二个红框是设置压缩方式,sequencefile和RCFile格式不能直接从本地文件导入数据,数据必须要先导入到TextFile格式的表中,然后再从TextFile表中用Insert导入到SequenceFile和RCFile表中

3、 RCFile

 

Facebook开发,行列存储相结合的存储方式

压缩比更高

读取列更快

RCFile存储结构遵循“先水平划分,再垂直划分”的设计里面,如图:

首先,RCFile保证同一行的数据位于同一个节点上,其次,像列存储一样,RCFile能够利用列唯独的数据压缩,并且能够跳过不必要的列读取

创建命令:

4、 自定义

 

当用户的数据文件格式不能被当前Hive使用的时候,可以自定义文件格式,通过实现InputFormat和OutputFormat自定义输入输出格式

创建命令:

5、 Hive三种文件格式的比较

 

时间: 2024-10-27 07:02:51

Hive-4-Hive的文件格式的相关文章

Hive之 hive架构

Hive架构图 主要分为以下几个部分: 用户接口,包括 命令行CLI,Client,Web界面WUI,JDBC/ODBC接口等 中间件:包括thrift接口和JDBC/ODBC的服务端,用于整合Hive和其他程序. 元数据metadata存储,通常是存储在关系数据库如 mysql, derby 中的系统参数 底层驱动:包括HiveQL解释器.编译器.优化器.执行器(引擎). Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算. 用户接口主要有三个:CLI,Client 和

[Hive - LanguageManual] Hive Concurrency Model (待)

Hive Concurrency Model Hive Concurrency Model Use Cases Turn Off Concurrency Debugging Configuration Locking in Hive Transactions Use Cases Concurrency support (http://issues.apache.org/jira/browse/HIVE-1293) is a must in databases and their use case

【hive】——Hive四种数据导入方式

Hive的几种常见的数据导入方式这里介绍四种:(1).从本地文件系统中导入数据到Hive表:(2).从HDFS上导入数据到Hive表:(3).从别的表中查询出相应的数据并导入到Hive表中:(4).在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中. 一.从本地文件系统中导入数据到Hive表 先在Hive里面创建好表,如下: hive> create table wyp > (id int, name string, > age int, tel string) >

[Hive]关于Hive的启动问题

业务背景 用户轨迹工程脚本最近经常报错,报错如下: SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] FAILED: Error in metadata: MetaException(message:java.lang.RuntimeException: commitTransaction was called but openTransactionCalls = 0. This probably indic

Shell脚本执行hive语句 | hive以日期建立分区表 | linux schedule程序

#!/bin/bash source /etc/profile; ################################################## # Author: ouyangyewei # # # # Content: Combineorder Algorithm # ################################################## # change workspace to here cd / cd /home/deploy/rec

hive (一) ----- hive的安装和使用

一.hive安装 1.下载hive2.1-tar.gz 2.解压 tar -zxf hive-2.1.0.tar.gz -C /opt cd /opt ln -s hive-2.1.0 hive 3.配置环境变量 [/etc/profile] HIVE_HOME=/soft/hive PATH=...:$HIVE_HOME/bin 测试: hive --version hive --help 4.复制mysql驱动程序到hive的lib目录下. 5.配置hive 1)复制hive-default

hive[3] 数据类型和文件格式

Hive 支持关系型数据库中的大多数据基本数据类型,同时也支持3种集合类型: 3.1 Hive 的基本数据类型 支持多种不同他度的整形和浮点型数据类型,具体如下(全都是保留字): tinyint    1byte 有符号整数 smalint    2byte有符号号数 int    4byte有符号号数 bigint    8byte有符号号数 boolean    布尔类型, true 或者 false float    单精度浮点数 double    双精度浮点数 string    字符

大数据时代的技术hive:hive介绍

我最近研究了hive的相关技术,有点心得,这里和大家分享下. 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2.Hive是建立在 Hadoop

【hive】——Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需 要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把 己写的mapper 和reducer 作为插件

Hive 官方手册翻译 -- Hive Transactions (Hive 事务)

由 Alan Gates创建, 最终由 Andrew Sherman修改于2018年8月7日 原文链接:https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions 翻译:Google Google翻译,金山软件 金山词霸 校对:南大通用 范振勇 (如有翻译问题,请多指教) 一.Hive 3的警告 升级到Hive 3.0时,由之前版本创建的任何事务性表都需要在每个分区上运行Major(主要/深度)级紧缩操作.更确切地说,自上