Hive学习01-快速了解hive以及常见的面试问题

cloudera公司发行的CDH中 hive的有三种角色:gateway、hiveserver2、hive metastore三种角色其中hive metastore主要用于客户端连接 默认端口hive  server2 主要用于jdbc连接(很多bi产品都靠jdbc连接,比如hue,帆软等软件)gateway 是client的一个代理,主要用于更新hive的客户端配置

apache社区的hive中也分为客户端,hiveserver2和hive metastore启动 metastore :   hive --service metastore 

启动hive :hive --service hiveserver2 

理论:

什么是hive:

1. Hive旨在实现轻松的数据汇总,即时查询和分析大量数据。

2. 它提供了SQL,使用户可以轻松地进行临时查询,汇总和数据分析。

3. Hive可以使用用户定义函数(UDF)。

4. 使用率:实际开发中,80%操作使用Hive完成,20%使用MapReduce。

5. 与MapReduce相比,Hive特点:稳定、代码精简、易于维护。

6. HiveQL:未严格实现SQL-92标准。

7. 本质:将HiveQL转化为一个或多个MapReduce作业并在集群上运行,但并不是所有HiveQL都会转为MapReduce作业。

常见问题:

1、hive 内部表:加载数据到 hive 所在的 hdfs 目录,删除时,元数据和数据文件都删除
   hive外部表:不加载数据到 hive 所在的 hdfs 目录,删除时,只删除表结构

2、分区作用:防止数据倾斜

3、sort by和order by之间的区别?distribute by?cluster by? group by?

sort by 是单个reduce内部的排序;

order by 是全局排序,只触发一个reduce

distribute by :按照指定的字段对数据进行划分输出到不同的reduce中,通常与sort by 连用

cluster by :除了具有distribute by 的功能外还兼具sort by 的功能

group  by 通常用于做聚合函数操作 count(*) sum(xx)

4.Hive中追加导入数据的4种方式是什么

#hdfsload data inpath ‘hdfs://xxx/xxx‘ into (overwrite) table a
#本地load data local inpath ‘/xxx/xx‘ into (overwrite) table a#查询导入create table student as select * from student1;#查询结果导入insert (overwrite) into table student select user_id,user_name from student2;

5.hive导出数据

#导出到hdfs 会递归创建文件夹 (注意文件夹如果存在,数据会被清空)高危操作
insert overwrite directory ‘/liuzhimin/test2/a‘ row format delimited fields terminated by ‘\t‘ select * from u_data_new;
#导出到本地(高危操作)
insert overwrite local directory ‘/home/dip/a‘ row format delimited fields terminated by ‘\t‘ select * from u_data_new;
#bash
hive -e "use cslc; select * from u_data_new ;"> a.txt

6.数据倾斜怎么办?

倾斜原因: map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过大。key分布不均匀、业务数据本身的特性、SQL语句造成数据倾斜;

解决办法:①参数调节:
set hive.map.aggr=true
set hive.groupby.skewindata=true
有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MR Job在根据预处理的数据结果按照 Group By Key 分布到Reduce中(这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中),最后完成最终的聚合操作。

②SQL语句调节:
大小表join,小表进内存;

大表Join大表:把空值的Key变成一个字符串加上一个随机数,把倾斜的数据分到不同的reduce上,由于null值关联不上,处理后并不影响最终的结果

count distinct大量相同特殊值:count distinct时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在做后结果中加1。如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行union.

bin  [b?n]  详细X

基本翻译

n. 垃圾箱;箱子,容器;瓶酒搁架;统计堆栈;(非正式)精神病院

v. 把……扔进垃圾桶;把……放入容器中;拒绝;把(酒等)放进搁架;把(数据)归入统计堆

n. (Bin) (美、意)本(人名)

网络释义

Hyun Bin: 玄彬

Bin Packing: 装箱问题

garbage bin: 垃圾箱

原文地址:https://www.cnblogs.com/students/p/9594484.html

时间: 2024-08-30 15:15:59

Hive学习01-快速了解hive以及常见的面试问题的相关文章

Hive学习(九)Hive体系结构

1.Hive架构与基本组成 下面是Hive的架构图. 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI.其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本.Client是Hive的客户端,用户连接至Hive Server.在启动 Client模式的时候,需要指出Hive Server所在节点,并且在该节点启动Hive Server. WUI是通过浏览器访问Hive. (2)Hive将元数据存储在数据库中

Hive学习(八)Hive数据导出三种方式

今天我们再谈谈Hive中的三种不同的数据导出方式. 根据导出的地方不一样,将这些方式分为三种: (1).导出到本地文件系统: (2).导出到HDFS中: (3).导出到Hive的另一个表中. 为了避免单纯的文字,我将一步一步地用命令进行说明. 一.导出到本地文件系统 hive> insert overwrite local directory '/home/wyp/wyp' > select * from wyp; 复制代码 这条HQL的执行需要启用Mapreduce完成,运行完这条语句之后,

Hive学习(五)hive日志

日志记录了程序运行的过程,是一种查找问题的利器. Hive中的日志分为两种 1. 系统日志,记录了hive的运行情况,错误状况. 2. Job 日志,记录了Hive 中job的执行的历史过程. 系统日志存储在什么地方呢 ? 在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况, 默认的存储情况: hive.root.logger=WARN,DRFA hive.log.dir=/tmp/${user.name} # 默认的存储位置 hive.log

Hive学习(七)Hive四种数据导入方式

Hive的几种常见的数据导入方式 这里介绍四种: (1).从本地文件系统中导入数据到Hive表: (2).从HDFS上导入数据到Hive表: (3).从别的表中查询出相应的数据并导入到Hive表中: (4).在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中. 一.从本地文件系统中导入数据到Hive表 先在Hive里面创建好表,如下: hive> create table wyp > (id int, name string, > age int, tel string)

Hive 学习(四) Hive的数据类型

一, 数字类型 二,日期时间类型 三,字符串类型 四,混杂类型 五,复合类型 5.1 array数据类型 5.2 map类型 5.3 struct类型 正文 一, 数字类型 如下表所示: 实例: create table t_test(a string ,b int,c bigint,d float,e double,f tinyint,g smallint) 二,日期时间类型 示例:有如下数据: 1,zhangsan,1985-06-30 2,lisi,1986-07-10 3,wangwu,

Hive学习(四)hive安装记录

本篇为安装篇较简单: 前提: 1: 安装了hadoop-1.0.4(1.0.3也可以)正常运行 2:安装了hbase-0.94.3, 正常运行 接下来,安装Hive,基于已经安装好的hadoop,步骤如下: 1:下载 从http://hive.apache.org/下载hive-0.9.0/ 创建目录 /hive 将文件hive-0.9.0保存在/hive下 2:解压缩 [[email protected] download]# cd /hive [[email protected] hive]

hive 学习系列五(hive 和elasticsearch 的交互,很详细哦,我又来吹liubi了)

hive 操作elasticsearch 一,从hive 表格向elasticsearch 导入数据 1,首先,创建elasticsearch 索引,索引如下 curl -XPUT '10.81.179.209:9200/zebra_info_demo?pretty' -H 'Content-Type: application/json' -d' { "settings": { "number_of_shards":5, "number_of_replic

Hive 学习(二) hive安装

一,文件下载 二,hive安装 2.1 mysql安装 2.2 解压hive 2.3 配置文件配置 2.4 环境变量配置 2.5 添加mysql的connect的jar包 三,hive使用方式 3.1 hive直接启动服务 3.2 hiveserver2以一个服务的方式启动 3.3 hive -e直接脚本方式运行 四,hive在HDFS中的数据显示 正文 一,文件下载 hive1.2.2下载:http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apac

Hive学习之路 (一)Hive初识

Hive 简介 什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive SQL)查询功能 5.底层数据是存储在 HDFS 上 6.Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 7.使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算. 数据仓库之父比尔·恩门(Bill Inmon