基于Cloudera Manager5配置HIVE压缩

[Author]: kwu

基于Cloudera Manager5配置HIVE压缩，配置HIVE的压缩，实际就是配置MapReduce的压缩，包括运行结果及中间结果的压缩。

1、基于HIVE命令行的配置

set hive.enforce.bucketing=true;
set hive.exec.compress.output=true;
set mapred.output.compress=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

在hive的命令下行运行如上代码即可，这里用的是Gzip压缩。

2、基于xml文件的压缩配置

mapred-site.xml

<property>
  <name>mapred.output.compress</name>
  <value>true</value>
  <description>Should the job outputs be compressed?
  </description>
</property>
<property>
  <name>mapred.output.compression.codec</name>
  <value>org.apache.hadoop.io.compress.GzipCodec</value>
  <description>If the job outputs are compressed, how should they be compressed?
  </description>
</property>

hive-site.xml

<property>
  <name>hive.enforce.bucketing</name>
  <value>true</value>
</property>
<property>
  <name>hive.exec.compress.output</name>
  <value>true</value>
</property>
<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.GzipCodec</value>
</property>

3、基于Cloudera Manager5配置HIVE压缩

1) 基于yarn的MR配置

2) hive的配置

增加如下内容

<property>
  <name>hive.enforce.bucketing</name>
  <value>true</value>
</property>
<property>
  <name>hive.exec.compress.output</name>
  <value>true</value>
</property>
<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.GzipCodec</value>
</property>

配置完毕，MapReduce包括hive运行结果以GZip进行压缩。

时间： 2024-10-30 15:27:59

基于Cloudera Manager5配置HIVE压缩的相关文章

Cloudera Manager5及CDH5在线安装（cloudera-manager-installer.bin）

?? 一. 准备工作 1. 需求条件网速好因为是线上安装,所以要求要有比较大的带宽,特别是并行安装台服务器时. 网络稳一旦网络中断,可能你花费了半天或则一天的时间,就有可能会浪费,然后重装. 内存大最少要求10G以上内存,特别NameNode节点分配的角色较多,占用内存会更多. 2. 安装环境安装版本 OS:CentOS 6.7 CM:Cloudera Manager5.7 CHD:Cloudera Hadoop 5.7(Hadoop2.6.0,Hbase1.2.0,Hi

14、Hive压缩、存储原理详解与实战

1.Hive 压缩 1.1数据压缩说明压缩模式评价: (1)压缩比 (2)压缩时间 (3)已经压缩的是否可以再分割:可以分割的格式允许单一文件有多个Mapper程序处理,才可以更好的并行化. Hadoop编码/解码器方式: 1.2数据压缩使用压缩模式评价可使用以下三种标准对压缩方式进行评价 1.压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2.压缩时间:越快越好 3.已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化常见压缩

基于MySQL元数据的Hive的安装和简单測试

引言: Hive是一种强大的数据仓库查询语言,类似SQL,本文将介绍怎样搭建Hive的开发測试环境. 1. 什么是Hive? hive是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,能够将sql语句转换为MapReduce任务进行执行. 其长处是学习成本低,能够通过类SQL语句高速实现简单的MapReduce统计.不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2. 依照Hive的准备条件 2.1 Hadoop集

基于MySQL元数据的Hive的安装和简单测试

引言: Hive是一种强大的数据仓库查询语言,类似SQL,本文将介绍如何搭建Hive的开发测试环境. 1. 什么是Hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2. 按照Hive的准备条件 2.1 Hadoop集

hive压缩

压缩配置: map/reduce 输出压缩(一般采用序列化文件存储) set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set mapred.output.compression.type=BLOCK; 任务中间压缩 set hive.exec.compress.intermediate=true; set hive.in

基于heartbeat v1配置mysql和httpd的高可用双主模型

一.配置高可用集群的前提:(以两节点的heartbeat为例) ⑴时间必须保持同步 ⑵节点之间必须用名称互相通信建议使用/etc/hosts,而不要用DNS 集群中使用的主机名为`uname -n`表示的主机名: ⑶ping node(仅偶数节点才需要) ⑷ssh密钥认证进行无障碍通信: 二.heartbeat v1的配置程序主配置文件:ha.cf 认证密钥:authkeys, 其权限必须为组和其它无权访问: 资源配置文件:haresources /usr/share/doc/heartbe

SQL Standard Based Hive Authorization（基于SQL标准的Hive授权）

说明:该文档翻译/整理于Hive官方文档https://cwiki.apache.org/confluence/display/Hive/SQL+Standard+Based+Hive+Authorization#SQLStandardBasedHiveAuthorization-ObjectPrivilegeCommands. Hive 0.13版本之前的授权现状 Hive默认授权(Default Hive Authorization (Legacy Mode)) 设计目的并不是为了防止恶

基于Cloudera Manager 5和CDH5(版本5.3.3)的Hadoop集群安装

一.Cloudera Manager/CDH5 1.关于cloudera manager和CDH是什么,这里不做详细介绍了.有官网和百科介绍. 附上官网地址:cloudera manager 2.官网的安装指南官方文档提供了三种安装方式:在线自动安装/手动安装包安装/手动使用cloudera manager管理安装此处使用第三种方式安装hadoop集群. 二.环境规划 1.系统:CentOS 6.4_x86 master:4G内存,硬盘尽量大容量 slave1:2G内存,硬盘尽量大容量 sl

配置 Hive On Tez

配置 Hive On Tez 标签(空格分隔): hive Tez 部署底层应用简单介绍介绍:tez 是基于hive 之上,可以将sql翻译解析成DAG计算的引擎.基于DAG 与mr 架构本身的优缺点,tez 本身经过测试一般小任务在hive mr 的2-3倍速度左右,大任务7-10倍左右,根据情况不同可能不一样. 对于 Tez-0.9.0 以及更高版本, Tez 需要 Apache Hadoop 版本为 2.7.0 或更高安装 Apache Hadoop 2.7.0 或更高版本,这里选取