spark1.1的部署、sparksql CLI、sparksql-jdbc运用

SparkSql实际运用:在spark0.9.x中不支持jdbc操作,spark1.1会加入jdbc支持

版本说明:spark-1.1.0+scala-2.10.4+hive-0.12.0

注意:版本不匹配可能出现各种不同的问题,可能出现不能配合工作,或者运算结果不对的情况!

spark1.1的发布正式版:2014/9/11

1、增加start-thriftserver.sh 服务启动,通过jdbc/odbc直接连接

bin/start-thriftserver.sh

2、sparksl CLI命令终端

bin/spark-sql --master spark://hadoop0:7077 --executor-memory 1g

spark.sql.shuffle.partitions default:200

spark sql> SET spark.sql.shuffle.partitions=10;

部署:

a、spark-site.xml配置

b、hive-sit.xml文件比较多,参考hive的安装

注意:需要在hive-site中配置zookeeper,让session保持数据同步,以及配置hiveserver2的一些选项!远程mysql作为数据仓库的配置更是毋庸置疑!

c、需要copy hive的hive-site.xml文件到spark的conf目录下),配置HIVE_CONF_DIR

不知道配置其中一个行不行,我嫌麻烦,就都配置上了,两外hive的lib目录下面需要有mysql的jdbc驱动jar包。

1、启动hive的metastore出错hive-0.12版本部署:

报错1:

hive-site.xml 中<value>auth</auth>需要修改为</value>

报错2:

MetaException(message:Version information not found in metastore. )

<property>

<name>hive.metastore.schema.verification</name>

<value>false</value>

</property>

2、启动spark1.1集群

start-all.sh

3、启动sparksql的CLI端

bin/spark-sql --master spark://hadoop0:7077 --executor-memory 1g

4、start-thriftserver.sh 服务启动

.使用jdbc远程客户端登陆查询数据:

.远程成功之后,看启动start-thriftserver.sh 服务的主机发生的响应

.jdbc客户端查询数据

总结:

1、与使用shark时候区别不大,程序完全不用修改,就可以跑在sparksql上面,但是底层的解析变成了spark自己出的,Catalyst解释引擎(SQL)来做!在webui界面可以看 到很大的不同,执行语句!

2、解析sql的时候感觉没有比HiveQL更快,和使用shark基于HiveQL的时候差别不大,可能是我电脑比较烂的原因,也许有更多好的性能优化方案!正在研究中。

3、写jdbc连接sparksql的程序参考:

https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients

时间: 2024-12-21 13:09:44

spark1.1的部署、sparksql CLI、sparksql-jdbc运用的相关文章

Spark1.0.0部署指南

1 节点说明   IP Role 192.168.1.111 ActiveNameNode 192.168.1.112 StandbyNameNode,Master,Worker 192.168.1.113 DataNode,Master,Worker 192.168.1.114 DataNode,Worker HDFS集群和Spark集群之间节点共用. 2 安装HDFS 见HDFS2.X和Hive的安装部署文档:http://www.cnblogs.com/Scott007/p/3614960

SparkSQL使用之JDBC代码访问Thrift JDBC Server

启动ThriftJDBCServer: cd $SPARK_HOME/sbin start-thriftserver.sh & 使用jdbc访问ThriftJDBCServer代码段: package com.luogankun.spark.sql import java.sql.DriverManager import java.sql.Connection import java.sql.PreparedStatement /** * JDBC代码访问Thrift JDBC Server *

Apache Spark1.1.0部署与开发环境搭建

Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce两个方法,其提供了更为强大的内存计算(in-memory computing)模型,使得用户可以通过编程将数据读取到集群的内存当中,并且可以方便用户快速地重复查询,非常适合用于实现机器学习算法.本文将介绍Apache Spark1.1.0的部署与开发环境搭建. 0. 准备 出于学习目的,本文将Spa

spark1.1.0部署standalone分布式集群

配置三个节点的spark集群,集群模式为standalone模式,其中sp1节点作为主节点,sp2节点和sp3节点为从节点.***注意所有操作均为root用户. 创建3个CentOS虚拟机,如下: sp1 192.168.1.21 //master节点 sp2 192.168.1.22 //slave节点 sp3 192.168.1.23 //slave节点 配置/etc/sysconfig/network环境变量,如下: 在sp1节点上执行:vi /etc/sysconfig/network将

spark1.3的部署

1.下载源码,根据自己的环境编译,我这里下载的是spark1.3版本 本人采用sbt编译, SPARK_HADOOP_VERSION=2.5.2 SPARK_YARN=ture sbt/sbt assembly 这句代码共有两个参数,第一个是指本机的hadoop环境的版本,第二个参数是指是否在yarn上运行, 2.编译完成后会生成make-distribution.sh文件3.然后我们需要将生成的部署包部署在集群上 这里有几个参数说明一下: --hadoop VERSION :hadoop版本号

SparkSQL JDBC和JDBCServer区别

注意SparkSQL JDBC和SparkSQL JDBCSever是完全两种不同的场景. SparkSQL JDBC SparkSQL可以使用JDBC的方式访问其他数据库,和普通非spark程序访问jdbc的方式相同.只是Spark中访问jdbc提供了接口能够将得到的数据转化成DataFrame.而操作数据库的过程和Spark没什么关系.这个功能优先于使用JDBCRDD.因为它返回一个DataFrame,而DataFrame在SparkSQL中具有更加丰富的API,操作更加简单,由于其具有结构

【SparkSQL】介绍、与Hive整合、Spark的th/beeline/jdbc/thriftserve2、shell方式使用SQL

目录 一.Spark SQL介绍 二.Spark和Hive的整合 三.Spark的thriftserve2/beeline/jdbc 四.shell方式使用SQL 一.Spark SQL介绍 官网:http://spark.apache.org/sql/ 学习文档:http://spark.apache.org/docs/latest/sql-programming-guide.html SQL on Hadoop框架: 1)Spark SQL 2)Hive 3)Impala 4)Phoenix

Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具.但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的

cdh5.3中配置sparksql

在cdh5.3中的spark,已经包含了sparksql,只需要做以下几步配置,就可以在使用该功能 1)确保hive的cli和jdbc都可以正常工作 2)把hive-site.xml 复制到 SPARK_HOME/conf目录下 3)将hive的类库添加到spark classpath中:编辑 SPARK_HOME/bin/compute-classpath.sh文件 在文件中添加CLASSPATH="$CLASSPATH:/opt/cloudera/parcels/CDH-5.3.0-1.cd