spark连接hive

1 环境

hadoop2.7.3

apache-hive-2.1.1-bin

spark-2.1.0-bin-hadoop2.6

jdk1.8

2 配置文件

在hive-site.xml中配置mysql数据库连接。

cp apache-hive-2.1.1-bin/conf/hive-site.xml  ./spark-2.1.0-bin-hadoop2.6/conf/

cp apache-hive-2.1.1-bin/lib/mysql-connector-java-5.1.40-bin.jar ./spark-2.1.0-bin-hadoop2.6/jars

3 启动

启动hadoop : ./hadoop-2.7.3/sbin/start-all.sh

启动mysql :  service mysql start

启动hive :  ./apache-hive-2.1.1-bin/bin/hive

启动spark : ./spark-2.1.0-bin-hadoop2.6/bin/spark-sql 验证是否正常连接hive,查询语法同hive一致。 (i.e. show tables;)

      或者 ./spark-2.1.0-bin-hadoop2.6/bin/spark-shell 运行scala程序

时间: 2024-10-20 12:33:40

spark连接hive的相关文章

Dbeaver连接Hive和Mysql的配置

1.连接Hive 首选需要配置Hive 这里我们采用的是JDBC的连接方式 (1) 在Hive中后台启动hiveserver2 [[email protected] hive]# bin/hiveserver2 & (2) 启动beeline [[email protected] hive]$ bin/beeline ls: cannot access /opt/module/spark/lib/spark-assembly-*.jar: No such file or directory Be

spark 整合 hive

spark-shell 整合 hive ------------------------------------------------------------------------------------------------------------------------------- 1.将 hive/conf/hive-site.xml 拷贝到 spark/conf 下 (目前只是在spark的master节点112,执行以下针对hive-site.xml 和各种jar的  操作,分

Spark 整合hive 实现数据的读取输出

实验环境: linux centOS 6.7 vmware虚拟机 spark-1.5.1-bin-hadoop-2.1.0 apache-hive-1.2.1 eclipse 或IntelJIDea 本次使用eclipse. 代码: import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import o

jdbc连接HIVE

在hive上启动service hive --service hiveserver 在eclipse中进行开发 导入需要的jar包(我这个导入的是udf和jdbc连接hive需要的jar包,基本是最简的了) 我的代码,hive的语法就不说了,大家可以修改例子中的sql来进行自己的业务.我的hive没有设置用户名,密码.所以   Connection con = new HiveJDBC().getConnection(             "jdbc:hive://192.168.192.1

kettle连接Hive中数据导入导出(6)

1.hive往外写数据 http://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS 连接hive 表输入 1)往excel中写数据 2)往文本文件中写数据 注:这里需要填上hive的表名.字段名,不然会报如下错误: 2016/07/27 15:43:01 - 表输入.0 - ERROR (version 3.2.0, build 1 from 2016-07-07 10.46.10 by xnren

Spark SQL Hive Support Demo

前提: 1.spark1.0的包编译时指定支持hive:./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --with-hive --tgz 2.安装完spark1.0: 3.安装与hadoop对应的CDH版本的hive: Spark SQL 支持Hive案例: 1.将hive-site.xml配置文件拷贝到$SPARK_HOME/conf下 hive-site.xml文件内容形如: <?xml version="1.0&

使用spark对hive表中的多列数据判重

本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate. 1.先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键. <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version

hadoop、spark、hive、solr、es与YDB在车辆即席分析上的对比分析

自2012年以来,公安部交通管理局在全国范围内推广了机动车缉查布控系统(简称卡口系统),通过整合共享各地车辆智能监测记录等信息资源,建立了横向联网.纵向贯通的全国机动车缉查布控系统,实现了大范围车辆缉查布控和预警拦截.车辆轨迹.交通流量分析研判.重点车辆布控.交通违法行为甄别查处及侦破涉车案件等应用.在侦破肇事逃逸案件.查处涉车违法行为.治安防控以及反恐维稳等方面发挥着重要作用. 随着联网单位和接入卡口的不断增加,各省市区部署的机动车缉查布控系统积聚了海量的过车数据.截至目前,全国32个省(区.

Spark和Hive的整合

Spark和Hive的整合 node1 spark master node2 hive 的服务端-->metastore server 1.拷贝 hive-site.xml 到 spark master的 conf 下 node1 <configuration> <property> <name>hive.metastore.uris</name> <value>thrift://node2:9083</value> <d