Hive 学习（二） hive安装

一，文件下载

二，hive安装

　　2.1 mysql安装

　　2.2 解压hive

　　2.3 配置文件配置

　　2.4 环境变量配置

　　2.5 添加mysql的connect的jar包

三，hive使用方式

　　3.1 hive直接启动服务

　　3.2 hiveserver2以一个服务的方式启动

　　3.3 hive -e直接脚本方式运行

四，hive在HDFS中的数据显示

正文

一，文件下载

　　hive1.2.2下载：http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz

　　mysql-connect.jar：https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.zip

二，hive安装

　　2.1 mysql安装

　　安装连接：https://www.cnblogs.com/tashanzhishi/p/10006705.html

　　2.2 解压hive文件

tar -zxvf apache-hive-1.2.1-bin.tar.gz  # 我这里的是hive1.2.1，如从上面连接下载，改为1.2.2即可

　　下图是解压目录：

　　2.3 配置文件配置

　　下面的配置主要是针对元数据的配置：若要配置其他信息可以参考：

vim /usr/local/hadoop/hive/apache-hive-1.2.1-bin/conf/hive-site.xml

<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>qwe123</value>
<description>password to use against metastore database</description>
</property>
</configuration>

　　2.4 环境变量配置

　　配置完毕后对环境变量进行配置：

vim /etc/profile

　　添加如下图：

　　然后重新加载一下环境变量：

　　2.5 添加mysql的connect的jar包

　　该jar包主要是为了hive连接mysql如下：

三，hive使用方式

　　启动须知：使用hive前，需要将HDFS和YARN进行启动，再使用HIVE.

start-dfs.sh
start-yarn.sh

　　3.1 最基本使用方式

[[email protected] ~]#hive
hive>

　　下图为实例：

　　若在启动时出现如下情况：

　　可以在配置文件中添加如下配置：

　　可以设置一些基本参数，让hive使用起来更便捷，比如：

　　1、让提示符显示当前库：

　　hive>set hive.cli.print.current.db=true;

　　2、显示查询结果时显示字段名称：

　　hive>set hive.cli.print.header=true;

　　但是这样设置只对当前会话有效，重启hive会话后就失效，解决办法：

　　在linux的当前用户目录中，编辑一个.hiverc文件，将参数写入其中：

　　vi .hiverc

set hive.cli.print.header=true;
set hive.cli.print.current.db=true;

　　3.2 启动hive服务使用

　　下面是启动hive服务，并且在后台运行：

nohup bin/hiveserver2 1>/dev/null 2>&1 &

　　启动成功后，可以在别的节点上用beeline去连接：

[[email protected] ~]# beeline
beeline> !connect jdbc:hive2://localhost:10000 -n root    # -n root 表示root用户无需验证密码，可以不带该参数，后面就会输入密码

　　如下实例：

　　测试使用：

　　3.3 脚本化运行

　　大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：

　　该机制的核心点是：hive可以用一次性命令的方式来执行给定的hql语句

[[email protected] ~]#  hive -e "use student; select * from t_test2;"

　　下面是实例：

　　然后，进一步，可以将上述命令写入shell脚本中，以便于脚本化运行hive任务，并控制、调度众多hive任务，示例如下：

[[email protected] ~] vi t_order_etl.sh

　　代码如下：

#!/bin/bash
hive -e "select * from db_order.t_order"
hive -e "select * from default.t_user"
hql="create table  default.t_bash as select * from db_order.t_order"
hive -e "$hql"

　　可以直接用：

[[email protected] ~] sh t_order_et1.sh

四，hive在HDFS中的数据显示

　　这里会简单介绍hive中创建的表在HDFS中存储的位置，因为牵扯到内部表和外部表，会在后面的章节中进行详细的阐述。

　　在hive创建的数据库，会默认的在hdfs的：/user/hive/warehouse/数据库/表，改目录可以自行配置

　　如下两图所示：

　　创建t_test2的表：

　　在HDFS中，会在响应的地方创建文件夹，如下图：

　　上面的图已经导入了数据：导入数据有两种方式，直接在shell中hdfs命令导入到对应的文件目录，如下：

　　导入结果如下：

　　方式二：在hive的命令行中进行数据导入：

　　导入结果如下：

原文地址：https://www.cnblogs.com/tashanzhishi/p/10863060.html

时间： 2024-07-29 05:28:10

Hive 学习（二） hive安装的相关文章

Hive学习心得&Hive的UDF

一:Hive基本介绍 Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列工具可以用来进行数据提取.转化.加载,这是一种可以存储.查询和分析存储在Hadoop中的大规模的数据机制. 使用语言:QL语言(类SQL查询语言).能处理内建的mapper和reducer无法完成的复杂分析工作. 1.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后再Hadoop执行. 2.Hive的表其实是HDFS的目录(/文件夹),按表名把文件夹区分开.如果是分区表,则分区值是子文件夹,可以

[hive学习翻译]Hive - Introduction

术语"大数据"用于大数据集的集合,包括大量,高速度和各种日益增加的数据.使用传统的数据管理系统,很难处理大数据.因此,Apache Software Foundation引入了一个称为Hadoop的框架来解决大数据管理和处理难题. HadoopHadoop是一个开放源代码框架,用于在分布式环境中存储和处理大数据.它包含两个模块,一个是MapReduce,另一个是Hadoop分布式文件系统(HDFS). MapReduce:它是一个并行编程模型,用于在大型商品硬件集群上处理大量的结构化,

Python学习(二) Django安装配置

上一节介绍了如何搭建Python的开发环境,这次介绍一下如何搭建Django的开发环境. 第一.下载Django Django跟Python的版本对应 Django version Python versions 1.4 2.5, 2.6, 2.7 1.7, 1.8 2.7 and 3.2, 3.3, 3.4 1.9 2.7, 3.3, 3.4, 3.5 这里我选择的是1.8.2,下载地址:https://www.djangoproject.com/download/ 第二.安装Django 下

MySQL数据库学习二 MSQL安装和配置

2.1 下载和安装MySQL软件 2.1.1 基于客户端/服务器(C/S)的数据库管理系统服务器:MySQL数据库管理系统客户端:操作MySQL服务器 2.1.2 MySQL的各种版本社区版(Community):免费,自由下载,不提供技术支持. 企业版(Enterprise):收费,完备的技术支持. 版本: GA(General Availability):官方推崇广泛使用的版本. RC(Release Candidate):候选版本,最接近正式版本. Alpha:内测版,Bean:公测

MAVEN学习(二) maven安装及集成Myeclipse

1.maven下载 : http://maven.apache.org/download.cgi 2.maven本地仓库配置:apache-maven-3.3.9\apache-maven\src\conf\settings.xml 的 <localRepository>属性, 输入本地jar包存放路径 3.打开myeclipse,window-preferences,搜索maven,在Users Settings存入上一步的文件路径

Hive学习路线图

Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处

Hive学习路线图--张丹老师

前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作.就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈. 让我们把Hive的环境构建起来,帮助非开发人员也能更好地了解大数据. 目录 Hive介绍 Hive学习路线图我的使用经历 Hive的使用案例 1. Hive介绍 Hive起源于Facebook,它使得针对Hadoop进行SQL查询成为可能

Hive学习路线图(转)

Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国

hive学习

大数据的仓库Hive学习 10期-崔晓光 2016-06-20 大数据 hadoop 10原文链接我们接着之前学习的大数据来学习.之前说到了NoSql的HBase数据库以及Hadoop中的HDFS存储系统,可是我们发现这跟我们平时常用的关系型数据库有很大区别,为了使用方便,产生了针对大数据存储的数据仓库Hive. 一.是什么 1.概念 Hive 是一个基于 Hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据. 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提

Hive学习之路（二）Hive安装

Hive的下载下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1.本人使用MySQL做为Hive的元数据库,所以先安装MySQL. MySql安装过程http://www.cnblogs.com/qingyunzong/p/8294876.html 2.上传Hive安装包 3.解压安装包 [[email protected] ~]$ tar -zxvf