hive介绍

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce、Tez任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

Hive将元数据存储在数据库(RDBMS)中,比如MySQL、Derby中。Hive有三种模式连接到数据,其方式是:单用户模式,多用户模式和远程服务模式。(也就是内嵌模式、本地模式、远程模式)

Hive是什么

1、它是由FaceBook开源,最初用于解决海量结构化的日志数据统计问题,它可以作为ETL工具。

2、它是构建在Hadoop之上的数据仓库。

3、数据计算是MapReduce、Tez

4、数据存储时HDFS

5、它定义了一种类SQL的查询语言——HQL

6、它适合离线数据处理

7、它是将HQL转换为MR、Tez的语言翻译器。

8、HQL语言:简单易用的类SQL查询语言;编程模型:允许开发者自定义UDF、Trasform、Mapper、Reducer,来更简单地完成复杂MapReduce无法完成的工作

9、数据格式:处理Hadoop上任意数据格式的数据,或则使用优化的格式存储Hadoop上的数据,RCFile、ORCFile、Parquest

10、数据服务:HiveServer2,多种API访问Hadoop上的数据,JDBC、ODBC

11、元数据服务:数据什么样,数据在哪里,Hadoop上的唯一标准

Hive的常见应用场景

1、日志分析

2、统计网站一个时间段内的pv、uv

3、从不同维度进行数据分析

4、海量结构化数据离线分析

Hive的优点/缺点

1、优点

1、简单容易上手

2、它是为超大数据集而设计的计算和扩展能力

3、提供统一的元数据管理

2、缺点

Hive的HQL的表达能力有限

迭代式算法无法表达,比如PageRank;数据挖掘方面,比如K-means

如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。

如果,您希望更容易地发现我的新博客,不妨点击一下左下角的【关注我】。

如果,您对我的博客所讲述的内容有兴趣,请继续关注我的后续博客,我是【刘超★ljc】。

本文版权归作者,禁止转载,否则保留追究法律责任的权利。

时间: 2024-10-12 15:10:20

hive介绍的相关文章

Hive介绍、安装(转)

1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: l  优点: 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线: 2.使用JDBC 接口/ODBC接口,开发人员更易开发应用: 3.以MR 作为计算引擎.HDFS 作为存储系统,为

Spark入门实战系列--5.Hive(上)--Hive介绍及部署

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: l  优点: 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线: 2.使用JDBC

【源】从零自学Hadoop(14):Hive介绍及安装

阅读目录 序 介绍 安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 本系列已经有一个多月没更新了,期间涉及到找相关对应的工作,所幸的事,得到了几个offer,后来综合考虑来到了目前这家工作.希望在接下来的时间里,能融入整个社区中去,做出自己略微的贡献. 上一篇,我们列举了hadoop常用的命令,本应该给大家实战下命令的使用的,后来还是想大家自己下去试验试验,接下来开始初略介

2. Hive介绍

一:  Hive基本概念                                          1.  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2.  Hive是SQL解析引擎,它将SQL语句转译成M/R Jo

大数据时代的技术hive:hive介绍

我最近研究了hive的相关技术,有点心得,这里和大家分享下. 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 2.Hive是建立在 Hadoop

Hive官方文档

Hive官方文档 内容列表 Cloudera制作的Hive介绍视频 安装与配置 系统需求 安装Hive发行版 从Hive源码编译 运行Hive 配置管理概览 运行时配置 Hive, Map-Reduce 与本地模式 错误日志 DDL 操作 元数据存储 DML 操作 SQL 操作 查询示例 SELECTS 和 FILTERS GROUP BY JOIN MULTITABLE INSERT STREAMING Simple Example Use Cases MovieLens User Ratin

Hive学习路线图

Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处

Hive学习路线图--张丹老师

前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作.就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈. 让我们把Hive的环境构建起来,帮助非开发人员也能更好地了解大数据. 目录 Hive介绍 Hive学习路线图 我的使用经历 Hive的使用案例 1. Hive介绍 Hive起源于Facebook,它使得针对Hadoop进行SQL查询成为可能

Hive基础学习

Hive 学习记录Hive介绍:Hive 是起源于Facebook,使得Hadoop进行SQL查询成为可能,进而使得非程序员也可以进进行对其使用:它是一种数据仓库工具,将结构化的数据文件 映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行.其优点是学习成本低,可以通过类SQL语句快速实 现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析 Hive 学习知识点: HIVE 的优势: 1). 帮助无开发经验的