Impala实践之十二:impala压缩方式测试

前言

测一下parquet、snappy、gzip、textfile这些方式在hdfs中占用的存储大小。

在impala中直接建内部表。

测试

存储格式 压缩格式 文件大小 建表时间
textfile none 3.0 G 38.74s
parquet none 1.5 G 32.33s
parquet snappy 709.3 M 31.71s
parquet gzip 471.5 M 48.23s

snappy

snappy的官方描述。

Snappy is a compression/decompression library. It does not aim for maximum compression, or compatibility with any other compression library; instead, it aims for very high speeds and reasonable compression. For instance, compared to the fastest mode of zlib, Snappy is an order of magnitude faster for most inputs, but the resulting compressed files are anywhere from 20% to 100% bigger. On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

补充

impala切换不同的压缩需要使用如下命令,在执行建表命令需要前用这个命令指定压缩方式。

set COMPRESSION_CODEC=gzip;

总结

impala在创建parquet表的时候已经默认了压缩格式为snappy,因此除非要修改为gzip或者不需要压缩,不用在进行其他的设置。



2016-05-04 19:55:30 hzct

时间: 2024-10-07 22:55:54

Impala实践之十二:impala压缩方式测试的相关文章

微软云计算介绍与实践(实践之十二)

今天主要实践使用远程 SMB 存储共享保存 VHD.由于周末要看球等原因,内容不多,有料就行.(^_^) 接前面,公司私有云管理员小张已经执行了迁移,他还需要在最近已部署的 Virtual Machine Manager 环境中检查虚拟机设置.所以下一步小张需要确认 Guest01 的存储已经位于 HyperV02 上的 SMB 3.0 共享中,并且虚拟机通过 EvalCluster 群集运行. 1.打开 Virtual Machine Management 控制台,输入用户名 CONTOSO\

微软云计算介绍与实践(实践之三十二)

好,今晚的工作很简单,就是创建.NET应用程序监视器.操作步骤如下: 1.单击监视,然后浏览到应用程序监控-.NET监视 2.点击IIS8.0的ASP.NET Web应用程序清单,等待销售(人员)的应用出现在此窗口中.这可能要15分钟左右才出现 3.当出现后,点击制作 4.右键单击管理包模板,然后选择添加监视向导 5.选择.NET应用程序性能监控,然后点击下一步 6.在名称字段中键入Sales应用程序监视器 7.单击新建按钮旁的目标管理包 8.在Name字段中输入Contoso管理,然后单击下一

QT开发(四十二)——DOM方式解析XML

QT开发(四十二)--DOM方式解析XML 一.DOM简介 1.DOM简介 DOM是Document Object Model的简写,即XML文档对象模型,是由W3C提出的一种处理XML文档的标准接口. DOM 一次性读入整个XML文档,在内存中构造为一棵树(DOM树)将XML文件表示成一棵树,便于随机访问其中的节点,但消耗内存相对多一些.能够在这棵树上进行导航,比如移动到下一节点或者返回上一节点,也可以对这棵树进行修改,或者是直接将这颗树保存为硬盘上的一个 XML 文件. 2.XML DOM节

第十二章课下测试补交博客

第十二章课下测试补交博客

Impala实践之十三:Impala建表时的关键字

前言 由于经常要帮数据分析抽表,因此自己写了个自动生成impala和sqoop脚本的工具,结果今天发现一个库中17张表,只成功导入了12张.仔细检查才发现是是由于impala建表时候字段使用了location关键字的原因. 分析 建表语句 impala-shell -i ip:25004 -q " DROP TABLE IF EXISTS database.table; CREATE EXTERNAL TABLE database.table( id string, location strin

Linux进程间通信(IPC)编程实践(十二)Posix消息队列--基本API的使用

posix消息队列与system v消息队列的差别: (1)对posix消息队列的读总是返回最高优先级的最早消息,对system v消息队列的读则可以返回任意指定优先级的消息. (2)当往一个空队列放置一个消息时,posix消息队列允许产生一个信号或启动一个线程,system v消息队列则不提供类似机制. 队列中的每个消息具有如下属性: 1.一个无符号整数优先级(posix)或一个长整数类型(system v) 2.消息的数据部分长度(可以为0) 3.数据本身(如果长度大于0) Posix消息队

Xamarin.Android开发实践(十二)

Xamarin.Android之ContentProvider 一.前言 掌握了如何使用SQLiteOpenHelper之后,我们就可以进行下一步的学习.本章我们将会学习如何使用ContentProvider来将数据库方面的操作封装起来,同时它还可以供其他应用访问并操作数据库. 二.概念 首先我们不会急于写代码,而是要搞懂如何利用ContentProvider对数 据库进行操作,因为我们不会直接操作数据库对象,而是通过URI来操作数据库.这就好比你要获取User表的全部内容,那么这个URI就是

ant design pro (十二)advanced UI 测试

一.概述 原文地址:https://pro.ant.design/docs/ui-test-cn UI 测试是项目研发流程中的重要一环,有效的测试用例可以梳理业务需求,保证研发的质量和进度,让工程师可以放心的重构代码和新增功能. Ant Design Pro 封装了一套简洁易用的 React 单元测试和 E2E 测试方案,在项目根目录运行以下命令就能运行测试用例. npm run test:all # 执行所有测试 二.详细 2.1.单元测试 单元测试用于测试 React UI 组件的表现.我们

springboot(十二):springboot如何测试打包部署

有很多网友会时不时的问我,spring boot项目如何测试,如何部署,在生产中有什么好的部署方案吗?这篇文章就来介绍一下spring boot 如何开发.调试.打包到最后的投产上线. 开发阶段 单元测试 在开发阶段的时候最重要的是单元测试了,springboot对单元测试的支持已经很完善了. 1.在pom包中添加spring-boot-starter-test包引用 <dependency> <groupId>org.springframework.boot</groupI