Hive 学习(二) hive安装

一,文件下载

二,hive安装

  2.1 mysql安装

  2.2 解压hive

  2.3 配置文件配置

  2.4 环境变量配置

  2.5 添加mysql的connect的jar包

三,hive使用方式

  3.1 hive直接启动服务

  3.2 hiveserver2以一个服务的方式启动

  3.3 hive -e直接脚本方式运行

四,hive在HDFS中的数据显示

正文

一,文件下载

  hive1.2.2下载:http://mirror.bit.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz

  mysql-connect.jar:https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.zip

二,hive安装

  2.1 mysql安装

  安装连接:https://www.cnblogs.com/tashanzhishi/p/10006705.html

  2.2 解压hive文件

tar -zxvf apache-hive-1.2.1-bin.tar.gz  # 我这里的是hive1.2.1,如从上面连接下载,改为1.2.2即可

  下图是解压目录:

  

  2.3 配置文件配置

  下面的配置主要是针对元数据的配置:若要配置其他信息可以参考:

vim /usr/local/hadoop/hive/apache-hive-1.2.1-bin/conf/hive-site.xml
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>qwe123</value>
<description>password to use against metastore database</description>
</property>
</configuration>

  2.4 环境变量配置

  配置完毕后对环境变量进行配置:

vim /etc/profile

  添加如下图:

  

  然后重新加载一下环境变量:

  

  2.5 添加mysql的connect的jar包

  该jar包主要是为了hive连接mysql如下:

三,hive使用方式

  启动须知:使用hive前,需要将HDFS和YARN进行启动,再使用HIVE.

start-dfs.sh
start-yarn.sh

  3.1 最基本使用方式

[[email protected] ~]#hive
hive>

  下图为实例:

  

  若在启动时出现如下情况:

  

  可以在配置文件中添加如下配置:

  

  可以设置一些基本参数,让hive使用起来更便捷,比如:

  1、让提示符显示当前库:

  hive>set hive.cli.print.current.db=true;

  2、显示查询结果时显示字段名称:

  hive>set hive.cli.print.header=true;

  但是这样设置只对当前会话有效,重启hive会话后就失效,解决办法:

  在linux的当前用户目录中,编辑一个.hiverc文件,将参数写入其中:

  vi .hiverc

set hive.cli.print.header=true;
set hive.cli.print.current.db=true;

  3.2 启动hive服务使用

  下面是启动hive服务,并且在后台运行:

nohup bin/hiveserver2 1>/dev/null 2>&1 &

  启动成功后,可以在别的节点上用beeline去连接:

[[email protected] ~]# beeline
beeline> !connect jdbc:hive2://localhost:10000 -n root    # -n root 表示root用户无需验证密码,可以不带该参数,后面就会输入密码

  如下实例:

  

  测试使用:

  

  3.3 脚本化运行

  大量的hive查询任务,如果用交互式shell来进行输入的话,显然效率及其低下,因此,生产中更多的是使用脚本化运行机制:

  该机制的核心点是:hive可以用一次性命令的方式来执行给定的hql语句

[[email protected] ~]#  hive -e "use student; select * from t_test2;"

  下面是实例:

  

  然后,进一步,可以将上述命令写入shell脚本中,以便于脚本化运行hive任务,并控制、调度众多hive任务,示例如下:

[[email protected] ~] vi t_order_etl.sh

  代码如下:

#!/bin/bash
hive -e "select * from db_order.t_order"
hive -e "select * from default.t_user"
hql="create table  default.t_bash as select * from db_order.t_order"
hive -e "$hql"

  可以直接用:

[[email protected] ~] sh t_order_et1.sh

四,hive在HDFS中的数据显示

  这里会简单介绍hive中创建的表在HDFS中存储的位置,因为牵扯到内部表和外部表,会在后面的章节中进行详细的阐述。

  在hive创建的数据库,会默认的在hdfs的:/user/hive/warehouse/数据库/表,改目录可以自行配置

  如下两图所示:

  创建t_test2的表:

  

  在HDFS中,会在响应的地方创建文件夹,如下图:

  

  上面的图已经导入了数据:导入数据有两种方式,直接在shell中hdfs命令导入到对应的文件目录,如下:

  

  导入结果如下:

  

  方式二:在hive的命令行中进行数据导入:

  

  导入结果如下:

  

  

原文地址:https://www.cnblogs.com/tashanzhishi/p/10863060.html

时间: 2024-07-29 05:28:10

Hive 学习(二) hive安装的相关文章

Hive学习心得&amp;Hive的UDF

一:Hive基本介绍 Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列工具可以用来进行数据提取.转化.加载,这是一种可以存储.查询和分析存储在Hadoop中的大规模的数据机制. 使用语言:QL语言(类SQL查询语言).能处理内建的mapper和reducer无法完成的复杂分析工作. 1.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后再Hadoop执行. 2.Hive的表其实是HDFS的目录(/文件夹),按表名把文件夹区分开.如果是分区表,则分区值是子文件夹,可以

[hive学习翻译]Hive - Introduction

术语"大数据"用于大数据集的集合,包括大量,高速度和各种日益增加的数据.使用传统的数据管理系统,很难处理大数据.因此,Apache Software Foundation引入了一个称为Hadoop的框架来解决大数据管理和处理难题. HadoopHadoop是一个开放源代码框架,用于在分布式环境中存储和处理大数据.它包含两个模块,一个是MapReduce,另一个是Hadoop分布式文件系统(HDFS). MapReduce:它是一个并行编程模型,用于在大型商品硬件集群上处理大量的结构化,

Python学习(二) Django安装配置

上一节介绍了如何搭建Python的开发环境,这次介绍一下如何搭建Django的开发环境. 第一.下载Django Django跟Python的版本对应 Django version Python versions 1.4 2.5, 2.6, 2.7 1.7, 1.8 2.7 and 3.2, 3.3, 3.4 1.9 2.7, 3.3, 3.4, 3.5 这里我选择的是1.8.2,下载地址:https://www.djangoproject.com/download/ 第二.安装Django 下

MySQL数据库学习二 MSQL安装和配置

2.1 下载和安装MySQL软件 2.1.1 基于客户端/服务器(C/S)的数据库管理系统 服务器:MySQL数据库管理系统 客户端:操作MySQL服务器 2.1.2 MySQL的各种版本 社区版(Community):免费,自由下载,不提供技术支持. 企业版(Enterprise):收费,完备的技术支持. 版本: GA(General Availability):官方推崇广泛使用的版本. RC(Release Candidate):候选版本,最接近正式版本. Alpha:内测版,Bean:公测

MAVEN学习(二) maven安装及集成Myeclipse

1.maven下载 : http://maven.apache.org/download.cgi 2.maven本地仓库配置:apache-maven-3.3.9\apache-maven\src\conf\settings.xml 的 <localRepository>属性, 输入本地jar包存放路径 3.打开myeclipse,window-preferences,搜索maven,在Users Settings存入上一步的文件路径

Hive学习路线图

Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处

Hive学习路线图--张丹老师

前言 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作.就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈. 让我们把Hive的环境构建起来,帮助非开发人员也能更好地了解大数据. 目录 Hive介绍 Hive学习路线图 我的使用经历 Hive的使用案例 1. Hive介绍 Hive起源于Facebook,它使得针对Hadoop进行SQL查询成为可能

Hive学习路线图(转)

Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国

hive学习

大数据的仓库Hive学习 10期-崔晓光 2016-06-20  大数据   hadoop   10原文链接 我们接着之前学习的大数据来学习.之前说到了NoSql的HBase数据库以及Hadoop中的HDFS存储系统,可是我们发现这跟我们平时常用的关系型数据库有很大区别,为了使用方便,产生了针对大数据存储的数据仓库Hive. 一.是什么 1.概念 Hive 是一个基于 Hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据. 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提

Hive学习之路 (二)Hive安装

Hive的下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1.本人使用MySQL做为Hive的元数据库,所以先安装MySQL. MySql安装过程http://www.cnblogs.com/qingyunzong/p/8294876.html 2.上传Hive安装包 3.解压安装包 [[email protected] ~]$ tar -zxvf