Hive基础之Hive是什么以及使用场景

Hive是什么
1）Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库；
2）一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制；
3）Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据；
4）允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作；
5）Hive没有专门的数据格式（分隔符等可以自己灵活的设定）；

ETL的流程（Extraction-Transformate-Loading）：将关系型数据库的数据抽取到HDFS上，hive作为数据仓库，经过hive的计算分析后，将结果再导入到关系型数据库的过程。

官方学习向导：https://cwiki.apache.org/confluence/display/Hive/Tutorial

Hive是构建在Hadoop之上的数据仓库
1）使用HQL作为查询接口；
2）使用HDFS作为存储；
3）使用MapReduce作为计算；

Hive应用场景
数据源：
1）文件数据，如中国移动某设备每天产生大量固定格式的文件；
2）数据库

以上两种不同的数据源有个共同点：要使用hive，那么必须要将数据放到hive中；通常采用如下两种方式：
1）文件数据：load到hive
2）数据库: sqoop到hive

数据的离线处理；
hive的执行延迟比较高，因为hive常用于数据分析的，对实时性要求不高；
hive优势在于处理大数据，对于处理小数据没有优势，因为hive的执行延迟比较高。

处理数据存放在hive表中，那么前台系统怎么去访问hive的数据呢？
先将hive的处理结果数据转移到关系型数据库中才可以，sqoop就是执行导入导出的操作

Hive基础之Hive是什么以及使用场景,布布扣,bubuko.com

时间： 2024-12-15 01:51:59

Hive基础之Hive是什么以及使用场景的相关文章

Hive基础之Hive体系架构&运行模式&Hive与关系型数据的区别

Hive架构 1)用户接口: CLI(hive shell):命令行工具:启动方式:hive 或者 hive --service cli ThriftServer:通过Thrift对外提供服务,默认端口是10000:启动方式:hive --service hiveserver WEBUI(浏览器访问hive):通过浏览器访问hive,默认端口是9999:启动方式:hive --service hwi 2)元数据存储(Metastore):启动方式:hive -service metastore

Hive基础之Hive环境搭建

Hive默认元数据信息存储在Derby里,Derby内置的关系型数据库.单Session的(只支持单客户端连接,两个客户端连接过去会报错): Hive支持将元数据存储在关系型数据库中,比如:Mysql/Oracle: 本案例采用的是将hive的元数据存储在MySQL中,故需要先安装MySQL数据库,使用的是CentOS6.4版本. MySQL安装采用yum安装方式安装: yum install mysql #安装mysql客户端 yum install mysql-server #安装mysq

Hive基础之Hive表常用操作

本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED

Hive基础之Hive的复杂类型

Array 一组有序字段,字段的类型必须相同.Array(1,2) create table hive_array(ip string, uid array<string>) row format delimited fields terminated by ',' collection items terminated by '|' stored as textfile; load data local inpath "/home/spark/software/data/hive_

Hive基础之Hive的存储类型

Hive常用的存储类型有: 1.TextFile: Hive默认的存储类型:文件大占用空间大,未压缩,查询慢: 2.Sequence File: 3.RCFile:facebook开发的一个集行存储和列存储的优点于一身,压缩比更高,读取列更快,它在mr环境中大规模数据处理中扮演着重要的角色:是一种行列存储相结合的存储方式,首先它将数据按行分块,保证同一个record在一个块中,避免读取一个记录需要读取多个record:一般情况下,hive表推荐使用RCFile: RCFile案例: 创建表: c

【Hive三】Hive理论

1. Hive基础 1. Hive基础 Hive基本概念引入原因: Hive是什么 Hive数据管理四种数据模型 Hive内部表和外部表 Hive数据类型 Hive的优化 Map的优化: Reduce 的优化一个Reduce: 分区裁剪(partition) 笛卡尔积 Map join Union all Multi-insert & multi-group by Automatic merge Multi-Count Distinct Hive优化-- 大小表关联 Hive优化-- 大大

Hive基础之各种排序的区别

order by 1.order by会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局排序): 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢: 2.hive.mapred.mode(默认值是nonstrict)对order by的影响 1)当hive.mapred.mode=nonstrict时,order by和关系型数据库中的order by功能一致,按照指定的某一列或多列排序输出: 2)当hive.mapred.mode=st

Hive 实战(1)--hive数据导入/导出基础

前沿: Hive也采用类SQL的语法, 但其作为数据仓库, 与面向OLTP的传统关系型数据库(Mysql/Oracle)有着天然的差别. 它用于离线的数据计算分析, 而不追求高并发/低延时的应用场景. 最显著的特别是, Hive的数据是Schema On Read, 对数据的写入非常的自由和松散, 而对数据的读取则作了各种限制. 而RMDBS则是Schema On Write, 对数据写入限制非常的严苛. *). 数据导入/导出让我们体验以下Hive中数据如何导入: 1). 创建数据库 db_

【Hive】Hive 基础

Hive架构: Hive基础 1 概念 1.1 简介 1.1.1 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.--OLAP 1.2 背景 1.2.1 OLAP逻辑和SQL一样大体一致,可以将这些逻辑转化为对应的MR,不需要每种类型的查询分析都重复写MR 1.2.2 Facebook开发通用的MR程序框架,对外使用SQL接口,框架就是Hive 1.3 官网 1.3.1 h

猜你喜欢

Linux-samba文件共享服务

实验要求:架构samba实现文件共享服务实验步骤: 第一步:将系统盘挂载到/mnt目录下查看 mnt 第二步:安装samba软件并且查看先进入samba目录,然后ls查看,在将 ...

Java继承与接口

public class test { public static void main(String[] args) { // TODO Auto-generated method stub B b= ...

上海之旅

因为比赛,所以去了一趟上海,虽然并没有拿到奖,心里面有些遗憾,多少有点失落,不过大家最近这段时间都还是很尽力的,没有拿到奖也就不那么重要了,毕竟大家在一起努力过,那段岁月是有价值的,虽然没有获得最终想 ...

Eclipse安装SVN插件方式简明介绍

一.Links安装: 推荐使用此种安装方式,因为它便于插件的管理. 在eclipse根目录下新建文件夹links,这样就得到了eclipse\links 在eclipse\links下新建一个link ...

C语言练习008:水仙花数

打印出所有的"水仙花数",所谓"水仙花数"是指一个三位数,其各位数字立方和等于该数本身.例如:153是一个"水仙花数",因为153=1的三 ...

一些漏洞: sql注入,xss,文件包含,目录遍历,参数篡改,认证攻击即使你有一些防火墙以及waf,那些黑客同样可以绕过这个时候安全人员就需要一些安全检测工具,找出来漏洞,修补是最好的办法下面介 ...

一天掌握Android JNI本地编程快速入门

一.JNI(Java Native Interface) 1.什么是JNI: JNI(Java Native Interface):java本地开发接口 JNI是一个协议 ...

机器视觉，高速拍照，工业相机开发大阅兵，一场视觉的盛宴2

机器视觉.工业摄像.对摄像头要求多是多样,为了纪念这个伟大的日志,决定吧层层惊涛经典相机配置一一展示受阅,欢迎各位高手拍砖.交流.共同提高,位国内视觉图像行业尽自己得力量! 部分图片来自网络,尊重原创 ...

会滚段

[转载][原创]回滚段的一点理解 (2012-08-22 23:34:38) 转载▼ 原文地址:[原创]回滚段的一点理解作者:Ryan UNDO表空间用于支持事务和数据的一致性.具体说,回退段的四大作 ...

uvalive4327（单调队列优化）

这题我有闪过是用单调队列优化的想法,也想过有左右两边各烧一遍. 但是不敢确定,搜了题解,发现真的是用单调队列,然后写了好久,调了好久下标应该怎么变化才过的. dp[i][j] 表示走到第i行,第j个竖 ...

JavaScript中this的一些怪异现象

<a href="#" onclick="alert(this.tagName ...

利用quota对Vsftpd做磁盘配额

利用quota对Vsftpd做磁盘配额 1 增加一块2G的硬盘打开VMware点击VM---settings-add-Hard Disk----Create a new virtual disk-S ...

【转】sqlserver使用sql导出索引

转自:http://blog.itpub.net/16436858/viewspace-609341/ BEGIN WITH tx AS ( SELECT a.object_id ,b.name AS ...

SQL Server 复制：事务发布（读写分离）

一.背景在复制的运用场景中,事务发布是使用最为广泛的,我遇到这样一个场景:在YangJiaLeClub数据库中有表.存储过程.视图.用户定义函数,需要提供给其它程序读取放入缓存,程序需要比较及时的获 ...

HDU_5057_分块

http://acm.hdu.edu.cn/showproblem.php?pid=5057 分块,保存每个块中每位对应数字的和,复杂的是getmum,左右下标所在的块不能直接读取block数组,要重 ...

python study - 正则表达式

第 7 章正则表达式 7.1. 概览 7.2. 个案研究:街道地址 7.3. 个案研究:罗马字母 7.3.1. 校验千位数 7.3.2. 校验百位数 7.4. 使用 {n,m} 语法 7.4.1. ...

Tomcat控制台

下图是启动Tomcat后(假设%Tomcat_Home%\conf\server.xml中的默认服务端口仍是8080),在浏览器中键入http://localhost:8080 后出现的Tomcat启 ...

hiho欧拉路径（自留）

无向图因为DFS本身就是一个入栈出栈的过程,所以我们直接利用DFS的性质来实现栈,其伪代码如下: DFS(u): While (u存在未被删除的边e(u,v)) 删除边e(u,v) DFS(v) E ...

OEL6.X IBM v3500存储多路径配置

本文是一次两台IBM x240安装OEL6.5x64连接IBM V3500存储多路径配置过程记录,当时用于安装Oracle 11g rac集群环境的. IBM v3500系列存储由于官方不再提供多 ...

数据库死锁严重引发中间件连接池满故障诊断

1.故障现象前台系统应用无法登陆,weblogic服务器应用程序的运行状态显示为overload,线程连接池满. 2.故障原因分析根据上述故障现象,分析基础可以确定为是Weblogic有过多的连接 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.025 s.