Hive快速入门

一、什么是Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

二、为什么使用Hive

学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

三、 Hive 系统架构

用户接口主要有三个：CLI，JDBC/ODBC和 WebUI

1. CLI，即Shell命令行

2. JDBC/ODBC 是 Hive 的Java，与使用传统数据库JDBC的方式类似

3. WebGUI是通过浏览器访问 Hive

Metastore（Hive的元数据）

1. 元数据包含了Hive包表的表名、字段分区属性等表的属性信息

2. 默认使用Derby数据库作为默认的元数据仓库（嵌入式，只支持单session回话）

四、 Hive与传统数据的对比

Hive

RDBMS

查询语言

HQL

SQL

数据存储

HDFS

Raw Device or Local FS

执行

MapReduce

Excutor

执行延迟

高

低

处理数据规模

大

小

索引

0.8版本后加入位图索引

有复杂的索引

五、 Hive与hadoop 的调用关系

六、 Hive安装

1. 下载hive源文件

2. 解压hive文件

3. 进入$HIVE_HOME/conf/修改文件

a) cp hive-env.sh.template hive-env.sh

b) cp hive-default.xml.template hive-site.xml

4. 修改$HIVE_HOME/bin的hive-env.sh，增加以下三行

a) exportJAVA_HOME=/usr/local/jdk1.7.0_45

b) exportHIVE_HOME=/usr/local/hive-0.14.0

c) exportHADOOP_HOME=/usr/local/hadoop-2.6.0

5. 伪分布模式使用默认的Derby就可以直接启动Hive控制台了，但一般都会修改为MySQL

修改$HIVE_HOME/conf/hive-site.xml

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://192.168.1.100:3306/crxy_job?

createDatabaseIfNotExist=true</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<value>admin</value>

</property>

6. 将MySQL的驱动包jar文件存放在HIVE_HOME/lib下

7. 启动Hive，现在就可以执行Sql语句创建表了！

更多精彩内容请关注

时间： 2024-12-30 02:34:00

Hive快速入门的相关文章

详细图解快速入门kettle

写在前面一: 数据仓库ETL工具有很多,基于大数据环境下的分析,Hive用的多些.本文介绍国外的一款开源ETL工具--Kettle. 写在前面二: 所用软件说明: 一.什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具).Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制. 二.Kettle安装配置 2.1.安装jdk 2.2.

sqoop 1.4.4-cdh5.1.2快速入门

一.快速入门 (一)下载安装 1.下载并解压 wget http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.2.tar.gz tar -zxvf sqoop-1.4.4-cdh5.1.2.tar.gz 2.将sqoop中的命令添加至$PATH中 export PATH=$PATH:/home/jediael/setupfile/sqoop-1.4.4-cdh5.1.2/bin 3.验证安装 [email protected]:~/s

从预装版VM快速入门hadoop

利用预装VM,有以下两种形式 The?Cloudera QuickStart Virtual Machine. This image runs within the free VMWare player,?VirtualBox, or KVM and has Hadoop, Hive, Pig and examples pre-loaded. Video lectures and screencasts walk you through everything. The?Hortonworks S

Powershell快速入门

Powershell快速入门来源: https://blog.csdn.net/u011054333/article/details/72567590 https://blog.csdn.net/u011054333/article/details/72568190 https://blog.csdn.net/u011054333/article/details/72798046 一说起 Shell 编程,我们大家想到的应该都是Linux 下的 Shell 编程.其实 Windows 下也可以

教你零基础如何快速入门大数据技巧

现在是大数据时代,很多人都想要学习大数据,因为不管是就业前景还是薪资都非常的不错,不少人纷纷从其他行业转型到大数据行业,那么零基础的人也想要学习大数据怎么办呢?下面一起探讨下零基础如何快速入门大数据技巧吧. 很多人都需要学习大数据是需要有一定的基础的,编程语言就是必备的条件之一,编程语言目前热门的有:Java.Python.PHP.C/C++等等,无论是学习哪一门编程语言,总之要精细掌握一门语言是非常必须的,我们先拿应用广泛的Java说起哦. .在入门学习大数据的过程当中有遇见学习,行业,缺乏系

笔记：Spring Cloud Zuul 快速入门

Spring Cloud Zuul 实现了路由规则与实例的维护问题,通过 Spring Cloud Eureka 进行整合,将自身注册为 Eureka 服务治理下的应用,同时从 Eureka 中获取了所有其他微服务的实例信息,这样的设计非常巧妙的将服务治理体系中维护的实例信息利用起来,使得维护服务实例的工作交给了服务治理框架自动完成,而对路由规则的维护,默认会将通过以服务名作为 ContextPath 的方式来创建路由映射,也可以做一些特别的配置,对于签名校验.登录校验等在微服务架构中的冗余问题

javaweb-html快速入门

本文主要是进行HTML简单介绍(详细的属性查帮助文档就行了,这里主要为快速入门,赶时间,在最短的时间中看明白一个html文件的代码(如果能称之为代码的话)详细的样式表,布局啥的有时间再研究吧) HTML 1.html的简介 1.1,html的全称:HyperText Mark-up Language ,超文本标记型语言,是网页的语言. 超文本:比文本更加强大(后面还会讲到XML,可扩展标记性语言) 标记:就是标签,html所有操作都是通过标签直接或间接的操作(把需要操作的数据通过标签封装起来)

crosswalk 快速入门，利用WebRTC（html）开始开发视频通话

crosswalk 快速入门,利用WebRTC(html)开始开发视频通话安装Python 从http://www.python.org/downloads/ 下载安装程序安装完后,再添加到环境变量. 安装Oracle JDK 下载页面: http://www.oracle.com/technetwork/java/javase/downloads/ 选择要下载的Java版本(推荐Java 7). 选择一个JDK下载并接受许可协议. 一旦下载,运行安装程序. 安装Ant Ant:下载http

bash编程快速入门

首先,我们简单的介绍一下bash,bash是GNU计划编写的Unixshell,它是许多Linux平台上的内定shell,它提供了用户与系统的很好的交互,对于系统运维人员,bash的地位是举足轻重的,bash编程能很快处理日常的任务 bash入门,一个最简单的bash例子 #vim hello.sh #!/bin/bash #This is the first example of the bash #echo "Hello world" 下面,我们就这个简单的bash 脚本来介绍一下