创建GZIP压缩格式的HIVE表

[Author]:  kwu

GZIP为Linux系统中最常用的压缩格式,创建GZIP压缩格式的HIVE表具体步骤如下。

1、以 STORED AS TEXTFILE 为存储格式创建HIVE表

CREATE TABLE TRACKLOG (DATEDAY STRING COMMENT "日期",IP STRING COMMENT "IP",COOKIEID STRING COMMENT "用户COOKIE",USERID STRING COMMENT "用户ID", LOGSERVERIP STRING COMMENT "记录日志服务器IP",REFERER STRING COMMENT "来源 :用户浏览网页的REFER",REQUESTURL STRING COMMENT "访问网址 : 当前访问网址")

PARTITIONED BY(DAY STRING)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘ ‘

STORED AS TEXTFILE ;

2、TEXTFILE格式可使用普通文本格式数据、也可使用GZIP的压缩格式,HIVE做自动解压GZIP的格式。

3、GZIP的压缩方法:

压缩当前目录下所有的 *.dat 文件

gzip *.dat

4、装载数据到HIVE分区表中

LOAD DATA LOCAL INPATH ‘/DISKG/BIGDATA/10-0-251-146/TRACKLOG/20150123*.DAT‘ OVERWRITE INTO TABLE TRACKLOG PARTITION (DAY=‘20150123‘);

5、删除一个分区

ALTER TABLE TRACKLOG DROP PARTITION(DAY=‘20130823‘)

6、GZIP的压缩,有着较好的通用性(LINUX系统中最常用的压缩方式),及良好的压缩比率(经测试文本压缩为23%),同时SPARK-SQL也能完美支持GZIP的格式。

时间: 2024-10-22 22:11:57

创建GZIP压缩格式的HIVE表的相关文章

hbase的四种压缩格式

Hbase支持的压缩格式: hbase支持的压缩格式:GZ(GZIP),LZ0,LZ4,Snappy GZ:用于冷数据压缩,与Snappy和LZ0相比,GZIP的压缩率更高,但是更消耗CPU,解压/压缩速度更慢. Snappy和LZ0:用于热数据压缩,占用CPU少,解压/压缩速度比GZ快,但是压缩率不如GZ高. Snappy与LZ0相比,Snappy整体性能优于LZ0,Snappy压缩率比LZ0更低,但是解压/压缩速度更快. LZ4与LZ0相比,LZ4的压缩率和LZ0的压缩率相差不多,但是LZ4

hadoop中4种压缩格式的特征的比较

1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快:hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样:有hadoop native库:大部分linux系统都自带gzip命令,使用方便. 缺点:不支持split. 应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式.譬如说一天或者一个小时的日志压缩成一个gzip 文件,运行mapreduce程序的时候通过多个gzip文件达到并发.hive程序,streaming程序,和j

【Web优化】Yslow优化法则(四)启用Gzip压缩

Yslow的第4个经验法则指出:启用gzip压缩功能,能够降低HTTP传输的数据和时间,从而降低client请求的响应时间. 本篇是Yslow法则的第四个,主要包含三个方面的内容: 1.      什么是gzip 2.      gzip与HTTP 3.      nginx启用gzip 什么是gzip? Gzip最早出如今Unix系统中,是GNU的文件压缩工具.我们今天所说的Gzip,并非特指Linux/Unix中的压缩工具,而是指HTTP中普遍使用的内容编码格式(内容编码,这里指的是内容的压

Tomcat配置gzip压缩

HTTP 压缩可以大大提高浏览网站的速度,它的原理是,在客户端请求网 页后,从服务器端将网页文件压缩,再下载到客户端,由客户端的浏览器负责解 压缩并浏览.相对于普通的浏览过程HTML ,CSS,Javascript , Text ,它可以节省40%左右的流量.更为重要的是,它可以对动态生成的,包括CGI.PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩,压缩效率惊人 一 对于Tomcat5.0以后的版本是支持对输出内容进行压缩的. 使用的是gzip压缩格式

设置TOMCAT启用GZIP压缩

原理简介 HTTP 压缩可以大大提高浏览网站的速度,它的原理是,在客户端请求服务器对应资源后,从服务器端将资源文件压缩,再输出到客户端,由客户端的浏览器负责解压缩并浏览.相对于普通的浏览过程HTML ,CSS,Javascript , Text ,它可以节省40%左右的流量.更为重要的是,它可以对动态生成的,包括CGI.PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩,压缩效率也很高. 配置方法 Tomcat5.0以后的版本是支持对输出内容进行压缩的,使用的

gzip压缩JavaScript

为了提高客户端的体验效果,RIA开发逐渐兴起.这样会项目中会充斥的大量的JavaScript代码,与此同时会消耗客户端浏览器性能.对于 Ext 实现的 one page one application ,对于外网访问也就产生了噩梦似的加载(除非你的网速足够快).为了缓解(不是解决,从代码加载方面考虑)加载慢的问题可以对JavaScript进行压缩.JavaScript的gzip静态压缩方法 一.将js格式文件压缩成gzjs格式.使用gzip.exe打包压缩后的JS文件,最后生成xx.js.gz,

使用Gzip压缩数据,加快页面访问速度

在返回的json数据量大时,启用Gzip压缩,可以提高传输效率.下面为Gzip压缩对json字符串压缩并输出到页面的代码. 一.代码 /** 向浏览器输出字符串响应数据,启用gzip压缩 */ protected void writeResponseDataStr(String data){ /** 获取响应对象 */ HttpServletResponse response = ServletActionContext.getResponse(); /** 设置响应内容类型 */ respon

Hive支持的文件格式和压缩格式及各自特点

Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大.数据解析开销大. 对应的hive API为:org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTextOutputFormat: 可结合Gzip.Bzip2使用(系统自动检查,执行查询时自动解压),但是使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作 2-SequenceFile

使用 PVRTC 压缩格式创建纹理(Creating textures in the PVRTC compression format)

使用 PVRTC 压缩格式创建纹理(Creating textures in the PVRTC compression format) 太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用协议 转载请保留此句:太阳火神的美丽人生 -  本博客专注于 敏捷开发及移动和物联设备研究:iOS.Android.Html5.Arduino.pcDuino,否则,出自本博客的文章拒绝转载或再转载,谢谢合作. 有关该篇