Hive初识

·什么是数据仓库?

数据仓库(一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于企业或组织的决策分析处理)。

·数据仓库的结构和建立过程:

数据源(Sq,文档,其他)-----抽取、转换、装载----> 数据存储和管理--------->数据仓库引擎-------->前段展示

·什么是Hive?

1)构建在Hadoop HDFS上的数据仓库;

2)用来进行数据提取转化加载;

3)定义了简单的类似SQL查询语言,称为HQL它允许熟悉SQL的用户查询数据;

4)可开发自定义的Mapper和Reducer;

5)SQL解析引擎,将SQL语句转移成M/R Job然后在Hadoop执行;

6)Hive就是HDFS的目录/文件.

··Hive的体系结构是什么?

解释器(词法分析)、编译器(生成HQL的执行计划)、优化器(生成最佳的执行计划)  完成HQL的解析和执行过程。生成的查询计划存储在HDFS中,并随后有MapReduce调用执行。

体系结构:

包括:(Command Line Interface, JDBC/ODBC, Web Console, metastore元数据)———> Hive Driver.

··Hive如何与Hadoop HDFS进行相互操作?

**Hive数据与Hadoop中的文件之间的关系?

时间: 2024-10-12 04:11:42

Hive初识的相关文章

Hive学习之路 (一)Hive初识

Hive 简介 什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive SQL)查询功能 5.底层数据是存储在 HDFS 上 6.Hive的本质是将 SQL 语句转换为 MapReduce 任务运行 7.使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算. 数据仓库之父比尔·恩门(Bill Inmon

Hive学习之路(一)Hive初识

Hive简介 什么是Hive Hive由Facebook实现并开源 是基于Hadoop的一个数据仓库工具 可以将结构化的数据映射为一张数据库表 提供HQL(Hive SQL)查询功能 底层数据是存储在HDFS上 Hive的本质是将SQL语句转换为MapReduce任务运行 使不熟悉MapReduce的用户很方便地利用HQL处理和计算HDFS上的结构化数据,适用于离线的批量数据计算 为什么使用Hive ? 直接使用MapReduce所面临的问题: 人员学习成本太高 项目周期要求太短 MapRedu

[转帖]Hive学习之路 (一)Hive初识

https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介 什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1.用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface 2.跨语言服务 : thrift server 提供了一种能力,让用户可以使用多种不同的语言来操纵hive 3.底层的Dr

2019大数据学习方向【最新分享】

一.大数据运维之Linux基础打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等.因为企业中的项目基本上都是使用Linux环境下搭建或部署的. 1)Linux系统概述2)系统安装及相关配置?3)Linux网络基础?4)OpenSSH实现网络安全连接?5)vi文本编辑器 6)用户和用户组管理7)磁盘管理?8)Linux文件和目录管理?9)Linux终端常用命令?10)linux系统监测与维护 二.大数据开发核心技术 -

Hive学习笔记:一初识

Hive是什么? Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在Hadoop  中的大规模数据的机制.Hive定义了简单的类SQL  查询语言,称为HQL,它允许熟悉SQL  的用户查询数据.同时,这个语言也允许熟悉MapReduce 开发者的开发自定义的mapper 和 reducer  来处理内建的mapper和reducer 无法完成的复杂的分析工作(UDF). Hive是SQL解析引擎

Hive[1] 初识 及 安装

本文前提是Hadoop & Java & mysql 数据库,已经安装配置好,并且 环境变量均已经配置到位 一.Hive 基本介绍 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作.就是这一个点,解决了原数据分析人员对于大数据分析的瓶 颈. Hive起源于Facebook,它使得针对Hadoop进行SQL查询成为可能,从而非程序员也可以方便地使用

初识 Cloudera Impala

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据.已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性.相比之下,Impala的最大特点也是最大卖点就是它的快速.Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口. Impala优点 下图来自zdnet,描述了Impala的一些优点:

细细品味大数据--初识hadoop

初识hadoop 前言 之前在学校的时候一直就想学习大数据方面的技术,包括hadoop和机器学习啊什么的,但是归根结底就是因为自己太懒了,导致没有坚持多长时间,加上一直为offer做准备,所以当时重心放在C++上面了(虽然C++也没怎么学),计划在大四下有空余时间再来慢慢学习.现在实习了,需要这方面的知识,这对于我来说,除去校招时候投递C++职位有少许影响之外,无疑是有很多的好处. 所以,接下来的很长日子,我学习C++之外的很多时间都必须要花在大数据上面了. 那么首先呢,先来认识一下这处理大数据

Flume -- 初识flume、source和sink

Flume – 初识flume.source和sink 目录基本概念常用源 Source常用sink 基本概念 ? 什么叫flume? 分布式,可靠的大量日志收集.聚合和移动工具. ? events 事件,是一行数据的字节数据,是flume发送文件的基本单位. ? flume配置文件 重命名flume-env.sh.template为flume-env.sh,并添加[export JAVA_HOME=/soft/jdk] ? flume的Agent source //从哪儿读数据. 负责监控并收