Hive基础之Hive的存储类型

Hive常用的存储类型有：

1、TextFile： Hive默认的存储类型；文件大占用空间大，未压缩，查询慢；

2、Sequence File：

3、RCFile：facebook开发的一个集行存储和列存储的优点于一身，压缩比更高，读取列更快，它在mr环境中大规模数据处理中扮演着重要的角色；是一种行列存储相结合的存储方式，首先它将数据按行分块，保证同一个record在一个块中，避免读取一个记录需要读取多个record；一般情况下，hive表推荐使用RCFile；

RCFile案例：

创建表：

create table emp_rcfile(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)
row format delimited fields terminated by ‘\t‘ lines terminated by ‘\n‘
stored as rcfile;

加载表数据：

load data local inpath ‘/home/spark/software/data/emp.txt‘ overwrite into table emp_rcfile;

报错:
Failed with exception Wrong file format. Please check the file‘s format.
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask

解决方法：在创建rcfile表的同时再创建一个textfile的临时表，将数据先导入到textfile表中；

创建与rcfile表相同的textfile的表：

create table emp_rcfile_raw(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)
row format delimited fields terminated by ‘\t‘ lines terminated by ‘\n‘
stored as textfile;

导入原始数据到textfile的表：

load data local inpath ‘/home/spark/software/data/emp.txt‘ overwrite into table emp_rcfile_raw;

然后再将textfile表中的数据插入到rcfile表中：

insert into table emp_rcfile select * from emp_rcfile_raw;

查看hdfs文件

hadoop fs -ls /user/hive/warehouse/emp_rcfile
/user/hive/warehouse/emp_rcfile/000000_0

Hive基础之Hive的存储类型

时间： 2024-10-04 18:40:19

Hive基础之Hive的存储类型的相关文章

Hive基础之Hive的复杂类型

Array 一组有序字段,字段的类型必须相同.Array(1,2) create table hive_array(ip string, uid array<string>) row format delimited fields terminated by ',' collection items terminated by '|' stored as textfile; load data local inpath "/home/spark/software/data/hive_

Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别

Hive架构 1)用户接口: CLI(hive shell):命令行工具:启动方式:hive 或者 hive --service cli ThriftServer:通过Thrift对外提供服务,默认端口是10000:启动方式:hive --service hiveserver WEBUI(浏览器访问hive):通过浏览器访问hive,默认端口是9999:启动方式:hive --service hwi 2)元数据存储(Metastore):启动方式:hive -service metastore

Hive基础之Hive是什么以及使用场景

Hive是什么1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库:2)一种可以存储.查询和分析存储在Hadoop 中的大规模数据的机制:3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据:4)允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作:5)Hive没有专门的数据格式(分隔符等可以自己灵活的设定): ETL的流程(Extraction-Transformate-Loading):将关

Hive基础之Hive环境搭建

Hive默认元数据信息存储在Derby里,Derby内置的关系型数据库.单Session的(只支持单客户端连接,两个客户端连接过去会报错): Hive支持将元数据存储在关系型数据库中,比如:Mysql/Oracle: 本案例采用的是将hive的元数据存储在MySQL中,故需要先安装MySQL数据库,使用的是CentOS6.4版本. MySQL安装采用yum安装方式安装: yum install mysql #安装mysql客户端 yum install mysql-server #安装mysq

Hive基础之Hive表常用操作

本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED

【Hive三】Hive理论

1. Hive基础 1. Hive基础 Hive基本概念引入原因: Hive是什么 Hive数据管理四种数据模型 Hive内部表和外部表 Hive数据类型 Hive的优化 Map的优化: Reduce 的优化一个Reduce: 分区裁剪(partition) 笛卡尔积 Map join Union all Multi-insert & multi-group by Automatic merge Multi-Count Distinct Hive优化-- 大小表关联 Hive优化-- 大大

【Hive】Hive 基础

Hive架构: Hive基础 1 概念 1.1 简介 1.1.1 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.--OLAP 1.2 背景 1.2.1 OLAP逻辑和SQL一样大体一致,可以将这些逻辑转化为对应的MR,不需要每种类型的查询分析都重复写MR 1.2.2 Facebook开发通用的MR程序框架,对外使用SQL接口,框架就是Hive 1.3 官网 1.3.1 h

Hive基础学习文档和入门教程

问题导读 1.hive除了包含用户接口.元数据,还包含哪些内容? 2.hive包含哪些操作? 3.hive数据能否被修改? 4.hive优化有哪些常用方法? 摘要: Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者

hive基础2

RDBMS OLTP. relation database management system,关系型数据库管理系统. 支持事务(acid) 延迟低安全行 V variaty : 多样性. hive mr,sql 开发效率高. 数据仓库. 数据库: //OLTP OLTP //online transaction process, OLAP //online analyze process,在线分析处理 , 很多分析函数 //rank | lag | lead | .. | cube | ro

猜你喜欢

kvm cobbler无人值守批量安装操作系统

kvm cobbler无人值守批量安装操作系统 cobbler:一个自动网络安装系统的工具,集成PEX.dhcp.dns.tftpd.sync等服务.可以供大家管理安装操作系统 kvm:Linux系统 ...

require.js的AMD规范详解

require.js使用简介在web刚开始发展的蛮荒时代,一个页面中只需要加载一个或少量的js文件,不存在模块,也不存在冲突之类的问题,但随着web项目的发展,它越来越大,js文件动辄几十个,怎么加 ...

使用Thrift RPC编写程序（服务端和客户端）

1. Thrift类介绍 Thrift代码包(位于thrift-0.6.1/lib/cpp/src)有以下几个目录: concurrency:并发和时钟管理方面的库processor:Processo ...

jQuery插件开发模式

http://www.cnblogs.com/gavin-num1/p/5655126.html jQuery插件开发模式软件开发过程中是需要一定的设计模式来指导开发的,有了模式,我们就能更好地组织 ...

BZOJ 2120 色彩数暴力

标题效果:给定一个序列,两种操作: 1.询[l,r]间隔多少个不同的号码 2.单点变化 n,m<=1W 树盖树?树董事长?因此不必! 暴力之前,这个问题2s,不想复杂!适当的水太! 离散化一下! ...

UIPickerView理解

c++ primer 6.2.3节练习答案

练习6.16 1 bool is_empty(const string &s) { return s.empty(); } 练习6.17 1 bool have_upper(const str ...

nyoj973 天下第一(spfa判环)

题目973 题目信息运行结果本题排行讨论区天下第一时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述 AC_Grazy一直对江湖羡慕不已,向往着大碗吃肉大碗喝酒的豪 ...

iOS中 MPMoviePlayer 实现视频音频播放作者:韩俊强

ios播放视频文件一般使用 MPMoviePlayerViewController 和 MPMoviePlayerController.前者是一个view,后者是个Controller.区别就是 MP ...

JavaScript、jQuery、HTML5、Node.js实例大全-读书笔记1

技术非常多.样例非常多,仅仅好慢慢学,慢慢实践.!如今学的这本书是[JavaScript实战----JavaScript.jQuery.HTML5.Node.js实例大全] 第 3 章用 JavaS ...

实现图片滚动加载以及排版优化

最近闲来没事,做了一个画江湖图片滚动加载的demo,大家感兴趣可以下来看一下以下为界面截图: 图片会随滚动条的拖动动态加载,目前来说只是加载的本地的资源,大家可以从后台抓取数据来实现懒加载. 支持图 ...

股票雷达Raquant笔试题

空闲之作,相互学习^_^ 题目要求: 1.生成五千行文本文件: 2.其中每一行分成3列,每一列是一个随机数,取值1到100的整数: 3.读取生成的文件,算出三列全是偶数的行数与三列全是奇数的行数的比值 ...

注重用于调试的代码

正常情况下,我们用以调试的代码,大概都会加上一个编译条件,这样避免在生产环境中产生不必要的性能损耗等还有一种情况,就是我们也需要将一部分类似的代码,在正式发布版本前,在Release下进行使用,通常 ...

Vs 2008 解决方案的目录结构设置和管理（转）

http://blog.csdn.net/lcj_cjfykx/article/details/8632459 MS的这个IDE,实在庞杂得恐怖.从大学开始,我就一直用VC的各个版本写程序至今,细细想 ...

自定义iOS上双击Home键图切换

如果双击Home,会来到iOS App的switcher页面,在这儿列出了当前系统挂起的App, 上面有每个App的切屏,相信大家都熟悉这个东东了.它其实是每个App在挂起前,对App后个载屏. 那么 ...

麦饭石、吸氨石与沸石

麦饭石麦饭石是一种对生物无毒.无害并具有一定生物活性的复合矿物或药用岩石.麦饭石的主要化学成分是无机的硅铝酸盐. 麦饭石是一种天然的药物矿石,含有人体所必需的钾.钠.钙.镁.磷常量元素和锌.铁.硒. ...

Application, JDBC, 数据库连接池, Session, 数据库的关系

RT,这几个东东已经困扰我很长一段时间了... 这次争取把她们理清楚了! 参考资料: 1. 数据库连接池:http://www.cnblogs.com/shipengzhi/archive/2011/ ...

Extjs二级联动 Extjs combo 省城市

Extjs二级联动 Extjs combox根据省查询城市实现效果如上图所示, store层代码: 1 Ext.define("ExtApp.store.TeacherProvince&q ...

linux启动过程分析

参考:http://blog.chinaunix.net/uid-26495963-id-3066282.html http://www.comptechdoc.org/os/linux/startu ...

java.lang.String.indexOf()用法

java.lang.String.indexOf(char ch) 方法返回字符ch在指定字符串中第一次出现的下标索引位置如果字符ch在指定的字符串中找不到,则返回-1 示例: import jav ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.