Spark JDBC入门测试

spark jdbc分支源码下载地址

　　https://github.com/apache/spark/tree/branch-1.0-jdbc

编译spark jdbc

　　 ./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --with-hive --tgz

环境搭建

　　参照spark环境搭建；

　　在$SPARK_HOME/conf下添加hive-site.xml的配置文件（指定元数据存放的mysql信息）；

　　拷贝mysql驱动包到$SPARK_HOME/lib下，并在spark-env.sh文件中指定mysql驱动包路径到SPARK_CLASSPATH中；

启动

　　启动thriftserver： $SPARK_HOME/sbin/start-thriftserver.sh &

　　启动beeline： $SPARK_HOME/bin/beeline -u jdbc:hive2://hadoop000:10000 -n spark -p hadoop

　　 -n指定thriftserver的用户名，-p指定thriftserver的密码

测试

　　在benline启动的命令行中进行测试，测试语句如同hive或者shark

测试发现的问题

　　1、UDF暂时无法采用add jar的方式添加：add jar /home/spark/lib/hiveudf.jar 这种方式暂时spark jdbc并不支持；

　　解决办法：先将udf的jar包路径配置到SPARK_CLASSPATH下；

待beeline启动后通过create temporary function is_msisdn as ‘com.aisainfo.ocdc.hive.udf.UDFIsMsisdn‘;创建udf函数并使用

2、加载HDFS数据到表中，暂时不支持overwrite

Spark JDBC入门测试

时间： 2024-11-11 06:22:18

Spark JDBC入门测试的相关文章

Spark从入门到上手实战

Spark从入门到上手实战课程学习地址:http://www.xuetuwuyou.com/course/186 课程出自学途无忧网:http://www.xuetuwuyou.com 讲师:轩宇老师课程简介: Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐.Spark 生态栈框架,非常的强大,可以对数据进行批处理.流式处理.SQL 交互式处理及机器学习和Graphx 图像计算.目前绝大数公司都使用,主要在于 Spark SQL 结构化数据的处理,非常的快速,高性能

Java进阶学习第十七天——JDBC入门学习

文档版本开发工具测试平台工程名字日期作者备注 V1.0 2016.05.11 lutianfei none JDBC JDBC介绍 JDBC是什么? JDBC(Java Data Base Connectivity,java数据库连接) SUN公司为了简化.统一对数据库的操作,定义了一套Java操作数据库的规范,称之为JDBC. 简单说,就是可以直接通过java语言去操作数据库. jdbc是一套标准,它是由一些接口与类组成的. 组成JDBC的类和接口 java.sql 类:Drive

Spark视频教程|Spark从入门到上手实战

Spark从入门到上手实战网盘地址:https://pan.baidu.com/s/1uLUPAwsw8y7Ha1qWGjNx7A 密码:m8l2备用地址(腾讯微云):https://share.weiyun.com/55RRnmc 密码:8qywnp 课程是2017年录制,还比较新,还是有学习的价值的课程简介:Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐.Spark 生态栈框架,非常的强大,可以对数据进行批处理.流式处理.SQL 交互式处理及机器学习和Graphx

Spark Streaming入门

1. Spark Streaming入门 1. 概述 Spark Streaming is an extension of the core Spark API that enables scalable(Spark Streaming是基于Spark Core的扩展) high-throughput(高可用) fault-tolerant(容错) stream processing of live data streams(作用在实时数据流上) Spark Streaming: 将不同的数据源

01.JDBC入门

一.JDBC入门 1.JDBC简介 JDBC, 即Java Database Connectivity,JDBC 为工具/数据库开发人员提供了一个标准的 API,使他们能够用纯Java API 来编写数据库应用程序.即Java数据库编程接口,是一组标准的Java语言中的接口和类,使用这些接口和类,Java客户端程序可以访问各种不同类型的数据库,比如建立数据库连接.执行SQL语句进行数据的存取操作. JDBC规范采用接口和实现分离的思想设计了Java数据库编程的框架.接口包含在java.sql及j

21、jdbc入门1

jdbc入门什么是jdbc 使用java代码(程序)发送sql语句的技术,就是jdbc技术!!!! 连接案例 /** * jdbc连接数据库 * @author APPle * */ public class Demo1 { //连接数据库的URL private String url = "jdbc:mysql://localhost:3306/day17"; // jdbc协议:数据库子协议:主机:端口/连接的数据库 // private String user = "

Spark GraphX 入门实例完整scala代码

由于天然符合互联网中很多场景的需求,图计算正受到越来越多的青睐.Spark GraphX 是作为 Spark 技术堆栈中的一员,担负起了 Spark 在图计算领域中的重任.网络上已经有很多图计算和 Spark GraphX 的概念介绍,此处就不再赘述. 本文将一篇很好的 Spark GraphX 入门文章中代码块整合为一个完整的可执行类,并加上必要注释以及执行结果,以方便有兴趣的朋友快速从 API 角度了解 Spark GraphX. 本文引用的代码块和多数文字描述均摘引自网文graph-ana

Spring JDBC入门

Spring将替我们完成所有使用JDBC API进行开发的单调乏味的.底层细节处理工作. 操作JDBC时Spring可以帮我们做这些事情: 定义数据库连接参数,打开数据库连接,处理异常,关闭数据库连接我们仅需要关注: 声明SQL语句,处理每一次得到的结果一个较为简单的例子与讲解 JdbcTemplate类 JdbcTemplate是core包的核心类.它替我们完成了资源的创建以及释放工作,从而简化了我们对JDBC的使用.它还可以帮助我们避免一些常见的错误,比如忘记关闭数据库连接.JdbcTe

web day17 JDBC入门,DAO模式mySQL时间类型转换,批处理

JDBC入门 1.JDBC(Java DataBase Connectivity)就是Java数据库连接,说白了就是用Java语言来操作数据库. 2.JDBC原理最终得出的结论是,由SUN提供一套访问数据库的规范(就是一组接口),并提供连接数据库的协议标准,然后各个数据库厂商会遵循SUN的规范提供一套访问自己公司的数据库服务器的API出现.SUN提供的规范命名为JDBC,而各个厂商提供的,遵循了JDBC规范的,可以访问自己数据库的API被称之为驱动! 3.JDBC核心类(接口)介绍 JDBC中