Hive On Spark hiveserver2方式使用

启动hiveserver2:

hiveserver2 --hiveconf hive.execution.engine=spark spark.master=yarn

使用beeline连接hiveserver2:

beeline -u jdbc:hive2://hadoop000:10000 -n spark

注意:每个beeline对应一个SparkContext,而在Spark thriftserver中,多个beeline共享一个SparkContext

可以通过YARN监控页面观察到:分别执行了两个beeline

在刚启动hive时,执行第一个sql语句会比较慢。

时间: 2024-08-02 22:52:50

Hive On Spark hiveserver2方式使用的相关文章

Hive基础之HiveServer2 JDBC的使用

启动HiveServer2: cd $HIVE_HOME/bin 以后台方式默认端口启动HiveServer2(默认端口是10000):hiveserver2 & 以后台方式指定端口的方式启动:hiveserver2 --hiveconf hive.server2.thrift.port=14000 & 使用beeline连接HiveServer2: cd $HIVE_HOME/bin beeline -u jdbc:hive2://hadoop000:10000 参数描述: hadoop

Hive on Spark

Hive On Spark 一.概述 Hive 是一种数据仓库,即是一种sql翻译器,hive可以将sql翻译成mapreduce程序在hadoop中去执行,默认支持原生的Mapreduce引擎.从hive1.1版本以后开始支持Spark.可以将sql翻译成RDD在spark里面执行.Hive支持的spark是那种spark-without-hive,即没有编译支持hive包的spark. 二.安装版本及软件 需要安装:scala-2.12.jdk1.8.hive-2.1.1.spark-1.6

hive on Spark部署

一.环境 1.zk集群 10.10.103.144:2181,10.10.103.246:2181,10.10.103.62:2181 2.metastore数据库 10.10.103.246:3306 二.安装 1.安装配置数据库 yum -y install mysql55-server mysql55 GRANT ALL PRIVILEGES ON metastore.* TO 'hive'@'localhost' IDENTIFIED BY 'hive'; GRANT ALL PRIVI

hive on spark 编译

前置条件说明 Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样. 从Hive 1.1版本开始,Hive on Spark已经成为Hive代码的一部分了,并且在spark分支上面,可以看这里https://github.com/apache/hive/tree/spark,并会定期的移到master分支上面去. 关于Hive on Spark的讨论和进度,可以看这里https://issues.apache

Hive on Spark安装与配置(无数坑)

一.版本如下    注意:Hive on Spark对版本有着严格的要求,下面的版本是经过验证的版本 apache-hive-2.3.2-bin.tar.gz hadoop-2.7.2.tar.gz jdk-8u144-linux-x64.tar.gz mysql-5.7.19-1.el7.x86_64.rpm-bundle.tar mysql-connector-java-5.1.43-bin.jar spark-2.0.0.tgz(spark源码包,需要从源码编译) Redhat Linux

关于hive on spark会话的共享状态

spark sql中有一个类: org.apache.spark.sql.internal.SharedState 它是用来做: 1.元数据地址管理(warehousePath) 2.查询结果缓存管理(cacheManager) 3.程序中的执行状态和metrics的监控(statusStore) 4.默认元数据库的目录管理(externalCatalog) 5.全局视图管理(主要是防止元数据库中存在重复)(globalTempViewManager) 1:首先介绍元数据地址管理(warehou

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

欢迎转载,转载请注明出处,徽沪一郎. 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析.由于这一特性而收到广泛的欢迎. Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令人满意.由于Spark出色的处理速度,有人已经成功将HiveQL的执行利用Spark来运行,这就是已经非常

hive 采用JDBC编码方式获取外部分区表数据

由于最近项目的需求,仔细研究了下采用hive JDBC编码的方式来实现命令行模式执行hql语句的功能.期间遇到了不少问题,并一一进行了分析解决.但是时间匆忙,本人并未能将遇到的问题逐一记录在案.凭借零零稀稀的记忆希望将这些问题和经验进行总结以备后用. 项目中有个需求就是实现通过hql条件查询语句查询出hive外部分区表中的数据,并将这些数据保存到本地文件中.直接贴出查询的主要类似代码如下: String driverName = "org.apache.hadoop.hive.jdbc.Hive

java连接Hive的几种方式

测试环境 Hadoop 0.20.2版本.Hive-0.5.0版本.JDK1.6 1.一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应用. 2.JDBC连接的方式,当然还有其他的连接方式,比如ODBC等, 这种方式很常用,可以在网上随便找到,就不再累赘了. 不稳定,经常会被大数据量冲挂,不建议使用. 3.这种方式是直接利用Hive