嵌入式 ThriftServer in Spark

我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer，之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中，通常并不希望另外起一个服务进程，自然就要问：可以在Spark dirver program里启一个嵌入式的ThriftServer吗？

答案是Yes。要启动ThriftServer，首先需要HiveContext，并且需要在Spark中已经configure好了Hive。通过启动HiveContext，可以利用 DataFrame 的saveAsTable方法将dataframe save 成 Hive table，达到持久化效果。下面是代码示例：

import org.apache.spark.sql.hive.HiveContext
import  org.apache.spark.sql.hive.thriftserver._

// start the Thrift Server with existing sqlContext casting to HiveContext
HiveThriftServer2.startWithContext(sqlContext.asInstanceOf[HiveContext])

// wisdom_lu_country has two columns: id and desc
case class lu_country(id:Short,desc:String)

// load the file as RDD, split each line to id and desc, and convert it to DataFrame
val countryDF = sc.textFile("/FB_100/wisdom_lu_country.csv").map(_.split(‘^‘)).map(p=>lu_country(p(0).toShort,p(1))).toDF()

// save as Hive table
countryDF.write.saveAsTable("wisdom_lu_country")

上述代码在spark-shell中执行成功。

时间： 2024-10-12 12:10:16

嵌入式 ThriftServer in Spark的相关文章

系统学习spark计划_spark老汤

老汤spark由浅入深深到底系列课程计划简介如下: spark 2.x 由浅入深深到底一_正确理解spark(课程已经发布) 本课程不会有太多的技术细节,主要是一些分布式存储和计算的基本理念和思想目标: 1: 彻底弄懂什么是RDD及其特点 2: 彻底弄懂什么是spark的分布式内存计算,进而理解spark真正解决的问题 3: 彻底弄懂spark是怎样解决各个领域问题,以及在解决各个领域问题的时候的特点见:http://edu.51cto.com/course/10932.html spark

spark的累加器-SQL-Streaming

RDD持久化 --------------- memory disk off-heap serial replication Memory_ONLY(true , false ,false , true ,1) 广播变量 --------------- driver端切成小块,存放到blockmanager,executor广播变量的小块,首先从自己的blockmgr中提取,如果提取不到,在从其他节点(driver + executor)提取,一旦提取到存放在自己的blockmgr. RDD

Spark SQL 报错总结

报错一: 启动spark-shell后查询hive中的表信息,报错 $SPARK_HOME/bin/spark-shell spark.sql("select * from student.student ").show() Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient at org.ap

spark动态资源（executor）分配

spark动态资源调整其实也就是说的executor数目支持动态增减,动态增减是根据spark应用的实际负载情况来决定. 开启动态资源调整需要(on yarn情况下) 1.将spark.dynamicAllocation.enabled设置为true.意思就是启动动态资源功能 2.将spark.shuffle.service.enabled设置为true. 在每个nodeManager上设置外部shuffle服务 2.1 将spark-<version>-yarn-shuffle.jar拷贝到

spark thriftserver运维

spark thriftserver运维: 在root@spark_master_machine机器上启动 thriftserver======================================================================================================================================================================== /root/cdh/spar

配置并启动spark的thriftserver网关

1.保证spark-sql已经使用mysql作为metadata存储介质 2.启动thrift网关 $SPARK_HOME/sbin/start-thriftserver.sh --driver-class-path /usr/local/spark/spark-1.3.0-bin-hadoop2.3/lib/mysql-connector-java-5.1.6-bin.jar --master spark://hd1:7077 --executor-memory 2g --total-exec

Spark ThriftServer使用的大坑

当用beeline连接default后,通过use xxx切换到其他数据库,再退出, 再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default,此时后台连接的其实还是xxx 测试步骤: 1.beeline -u jdbc:hive2://hadoop000:10000/default -n spark 2.create database demo; 3.use demo; 4.退出beeline 5.beelin

Spark从入门到上手实战

Spark从入门到上手实战课程学习地址:http://www.xuetuwuyou.com/course/186 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师课程简介: Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐.Spark 生态栈框架,非常的强大,可以对数据进行批处理.流式处理.SQL 交互式处理及机器学习和Graphx 图像计算.目前绝大数公司都使用,主要在于 Spark SQL 结构化数据的处理,非常的快速,高性能

spark sql 优化心得

本篇文章主要记录最近在使用spark sql 时遇到的问题已经使用心得. 1 spark 2.0.1 中,启动thriftserver 或者是spark-sql时,如果希望spark-sql run on hdfs,那样需要增加参数 "--conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse" 例如启动thriftserver: bin/start-thriftserver.sh --master s

猜你喜欢

数组求和方法汇总

var arr = [1, 2, 3, 4, 5, 6];测试时我不想过度使用全局变量影响命名空间,所以没使用未声明变量.而是直接通过私有作用域设置静态私有变量,也可以用其他设计模式来限定变量作用域. ...

Android-ListView

ListView是一个经常用到的控件,ListView里面的每个子项Item可以使一个字符串,也可以是一个组合控件.先说说ListView的实现: 1.准备ListView要显示的数据 : 2.使用 ...

双向链表代码

在单链表当中,从已知节点出发,只能访问该节点的后继节点,却无法访问该节点之前的节点,在单循环链表当中,虽然可以通过一个节点访问表中所有节点,但是要找到直接前驱却要遍历整个表,因此为了加快寻找某个节 ...

【原创】使用PHP批量替换静态HTML中违规内容

今天突然接到集团的要求,因为新广告法规出台,要求本人所在的下属公司删除官方网站里面的违反规定的内容,因为现在使用的官网其实就是一些静态页面,一共不到30个页面,一开始打算用Dreamweaver批量替 ...

【leetcode】Dungeon Game

Dungeon Game The demons had captured the princess (P) and imprisoned her in the bottom-right corner ...

linux下编译安装mysql

先检查系统中是否已经安装了mysql 如果有请卸载下载mysql源代码包 http://www.mysql.com/downloads/ 编译参考文档 http://dev.mysql.com/do ...

python除法

1. >>> from __future__ import division >>> 2/3 0.6666666666666666 操作数为何种数值类型将影响结果 ...

【卷一】正则 |> 练习

参考:<Python核心编程(3rd)>—P39 1-1 识别后续的字符串: "bat", "bit", "but" &quo ...

python 练习 25

Python 语言允许在一个循环体里面嵌入另一个循环. Python for 循环嵌套语法: for iterating_var in sequence: for iterating_var in s ...

JAVA实验五（网络编程）

实验报告课程:Java程序设计班级:1351 姓名:姜文敏学号:20135112 成绩 ...

Spring MVC之DispatcherServlet初始化

今天在整合工作流activiti5.14时,部署到Tomcat中启动时看到console输出的信息中有如下信息, 2017-02-16 14:43:11,161 DEBUG [org.springfr ...

1.复习本次课程所讲的内容: 复习完毕! 2.总结整理磁盘管理及文件系统管理中设计的各种命令的使用,并附注一定的示例: 磁盘管理和文件系统 3.创建一个10G的文件系统,类型为ext4,要求开机可自动 ...

以sysdba身份登录oracle报ORA-1031权限不足错误之完美分析

在linux 操作系统的数据库服务器上,使用”sqlplus / as sysdba” 登录Oracle 10.2 数据库实例时,登录失败,显示ORA-01031: 权限不足. 在数据库所在服务器上 ...

vmware安装linux.iso

1.sudo passwd root 2.su 3.将VMwareTools-9.2.3-1031360.tar.gz 拷贝到home/文件夹下 4.tar zxf VMwareTools-9.2.3 ...

【PHP】mysql基本操作整合

php版本:PHP Version 5.5.1 环境:windows10 XMAPP 数据库:mysql 代码: <?php function connetionDB($servername, ...

運行程式時提示丟失api-ms-win-crt-runtime-l1-1-0.dll

方法一:在C:\Windows\System32是有这个api-ms-win-crt-runtime-l1-1-0.dll的,所以大家可以直接拷贝到C:\Windows\SysWOW64即可方法二: ...

Django中使用静态资源/文件

Django中常需要引用js,css,小图像文件,一般我们把这一类文件称为静态文件,放置在static文件夹中,接下来,对Django中配置静态文件进行下傻瓜式的步骤介绍在工程目录下新建static ...

开源Linux拥抱车载娱乐系统

关于Linux的学习,请参考书籍<Linux就该这么学> Apple CarPlay和Android Auto已经开始角力争夺车载娱乐系统市场,而现在开源Linux在也开始在该领域中发力. ...

Oracle数据库锁管理及锁分析_超越OCP精通Oracle视频课程培训10

Oracle视频教程目标 Oracle视频教程,风哥本套oracle教程培训学习熟悉锁的概念,介绍导致阻塞的原因,数据库死锁的检查方法,死锁模拟与死锁问题处理操作命令适用人群 IT相关从业人员.Or ...

[转]常见的性能测试方法

1．负载测试在这里,负载测试指的是最常见的验证一般性能需求而进行的性能测试,在上面我们提到了用户最常见的性能需求就是“既要马儿跑,又要马儿少吃草”.因此负载测试主要是考察软件系统在既定 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.