005-hive概述

Hive概述

名称
hive系统架构	metastore	derby mysql
	HDFS	/usr/hive/warehouse
	Mapreduce
hive配置文件	hive-env.sh hive-site.xml hive-log4j.properties
hive命令行	hive --config
	hive shell	quit、exit reset set add、list、delete FILES !<command> dfs<command> HQL source files
	hive service	hive --service cli hive --service hiveserver hive --service metastore hive --service hwi hive --service jar
HiveQL	语法关键字	show databases show PARTITIONS show tables create table load data(local) inpath select * from desc、alert/drop limit、as、case when then、union like、group by、having order by、sort by cluster by
	数据类型	简单类型	tinyint、smallint、int、bigint float、double boolean string timestamp binary
		复杂类型	array map struct
	表	内部表
		外部表	HDFS HBase Cassandra DynamoDB
	表查询	单表查询 inner joins outer joins Semi joins map joins 子查询视图
数据表设计	每日一表每日一表分区按桶分散数据
Hive优化	表分区Partitions 表存储桶buckets 表压缩索引→bitmap indexes 执行计划控制Mappers、reducer数量
访问方式	Hive shell java jdbc api thrift client Rhive
自定义函数	自定义函数UDF 自定义聚合函数UADF
Hive安全	认证	hive.files.umask.value hive.metastore.authorization.storage.checks hive.metastore.execute.setugi
	授权	hive.security.authorization.enabled hive.security.authorization.createtable.owner.grants hive.security.authorization.createtable.user.grants
	权限模型	User Group Role
web控制台	hwi:9999
软件集成	zookeeper thrift Ooize HCatalog AWS

时间： 2024-08-24 11:15:19

005-hive概述的相关文章

Hive概述

HIVE是什么开发调试麻烦只能用java开发需要对hadoop的底层及api比较了解才能开发复杂代码 HQL Hive是基于Hadoop的一个数据仓库工具.可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive是建立在 Hadoop 上的数据仓

基于hadoop的数据仓库工具：Hive概述

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机

Hive学习(1)：Hive概述

什么是Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计. Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能. 本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS 2)Hive 分析数据底层的实现是 MapReduce 3)执行程序运行在 Yarn 上 Hive大致流程: Hive的优缺点优点 1)操作接口采用类 SQL 语法,提供快速开发的能力(简单.容易

【Hive】概述及常用命令

用于记录Hive的原理说明.常用命令.以及优化,以便日后查询. 1. Hive概述 a. Hive是一个数据仓库的软件,用来管理大量的数据集,对其进行数据统计分析 b. Hive并不是数据库,它和数据库的应用场景不同,数据库适用于OLTP[online transaction process 在线事务处理],而Hive适合于OLAP[online analysis process 在线分析处理] 2. 知识点说明 a. Hive可以用类SQL语言[HiveQL/HQL]进行操纵,但是并不是操作的

Hive基础（1）---Hive是什么

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性. 这是来自官方的解释. 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦. 先上一张经典的Hive架构图: Hive架构图如

Hive 的基本概念

Hadoop开发存在的问题只能用java语言开发,如果是c语言或其他语言的程序员用Hadoop,存在语言门槛. 需要对Hadoop底层原理,api比较了解才能做开发. Hive概述 Hive是基于Hadoop的一个数据仓库工具.可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive是建

新闻网大数据实时分析可视化系统项目——12、Hive与HBase集成进行数据分析

(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive. Cloudera版本的Hive. 这里选择下载Apache稳定版本apache-hive-0.13.1-bin.tar.gz,并上传至bigdata-pro03.kfk.com节点的/opt/softwares/目录下. 2.解压安装hive tar -zxf apache-hive-0.

新闻实时分析系统Hive与HBase集成进行数据分析

hadoop--hive数据仓库

一.hive概述 Hive是基于 Hadoop 的一个[数据仓库工具],可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行.使用SQL来快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,学习成本低,十分适合数据仓库的统计分析. [数据仓库]英文名称为 Data Warehouse,可简写为 DW 或 DWH.数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它