Spark API编程动手实战-07-join操作深入实战

我们在hdfs的/data/join创建两个文件:

上传第一个文件名称为1.txt

内容第一列是日期,第二列uid(普通用户id)

上传第二个文件名称为2.txt

内容第一列是日期,第二列uid(普通用户id)

执行上传到hdfs:

hdfs命令行查询:

web控制台管理查询:

首先在命令行中设置日期格式:

然后声明两个case class:Register、Login

读取第一个文件(1.txt)并进行操作:

take操作:

该操作是首先读取文件的内容,然后以Tab键进行分词,然后以第二列为key,每一行的所有内容为Value构建起的Register作为Value的值;

读取第二个文件(2.txt)并进行操作:

take操作:

下面对文件执行join操作:

取出join操作的结果:

take结果:

或者把执行结果保存到HDFS:

到Web控制台上查看执行结果:

在hdfs查看一下其执行结果:

时间: 2024-10-15 14:12:37

Spark API编程动手实战-07-join操作深入实战的相关文章

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKey、join、reduce、lookup等操作实践

下面看下union的使用: 使用collect操作查看一下执行结果: 再看下groupByKey的使用: 执行结果: join操作就是一个笛卡尔积操作的过程,如下示例: 对rdd3和rdd4执行join操作: 使用collect查看执行结果: 可以看出join操作完全就是一个笛卡尔积的操作: reduce本身在RDD操作中属于一个action类型的操作,会导致job的提交和执行: 下面我们看下lookup的使用: 执行结果:

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和co

首先以spark的本地模式测试spark API,以local的方式运行spark-shell: 先从parallelize入手吧: map操作后结果: 下面看下 filter操作: filter执行结果: 我们用最正宗的scala函数式编程的风格: 执行结果: 从结果 可以看出来,与之前那种分步奏方式结果是一样的 但采用这种方式,即是复合scala风格的写法,也是符合spark的应用程序风格的写法,在spark的编程中,大多数功能的实现都是只要一行代码即可完成.

Spark API编程动手实战-01-以本地模式进行Spark API实战map、filter和collect

首先以spark的本地模式测试spark API,以local的方式运行spark-shell: 先从parallelize入手吧: map操作后结果: 下面看下 filter操作: filter执行结果: 我们用最正宗的scala函数式编程的风格: 执行结果: 从结果 可以看出来,与之前那种分步奏方式结果是一样的 但采用这种方式,即是复合scala风格的写法,也是符合spark的应用程序风格的写法,在spark的编程中,大多数功能的实现都是只要一行代码即可完成.

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe

下面看下union的使用: 使用collect操作查看一下执行结果: 再看下groupByKey的使用: 执行结果: join操作就是一个笛卡尔积操作的过程,如下示例: 对rdd3和rdd4执行join操作: 使用collect查看执行结果: 可以看出join操作完全就是一个笛卡尔积的操作: reduce本身在RDD操作中属于一个action类型的操作,会导致job的提交和执行: 下面我们看下lookup的使用: 执行结果:

Spark API编程动手实战-05-spark文件操作和debug

这次 我们以指定executor-memory参数的方式来启动spark-shell: 启动成功了 在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面: 从hdfs上读取文件: 在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系: 可以看出MappedRDD是从HadoopRDD转换而来的 再看下textFile的源代码: hadoopFile这个方法返回的是一个HadoopR

Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count

操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的"LICENSE.txt"文件: 用spark读取这个文件: 使用count统计该文件的行数: 我们可以看到count 耗时为0.239708s 对该RDD进行cache操作并执行count使得缓存生效: 执行count结果为: 此时耗时为0.21132s 再执行count操作: 此时耗时为0.029580s,这时因为我们自己基于cache后的数据

Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02

接下来进行打包,使用Project  Structure的Artifacts: 使用From modules with dependencies: 选择Main Class: 点击“OK”: 把名称改为SparkDemoJar: 因为每台机器上都安装了Scala和Spark,所以可以把Scala和Spark相关的jar文件都删除掉: 接下来进行Build: 选择“Build Artifacts”: 剩下的操作,就是jar包上传到服务器上,然后执行spark-submit命令,我在之前的文章已经详

Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cach

操作HDFS:先要保证HDFS启动了: 启动spark集群: 以spark-shell运行在spark集群上: 查看下之前上传到HDFS上的"LICENSE.txt"文件: 用spark读取这个文件: 使用count统计该文件的行数: 我们可以看到count 耗时为0.239708s 对该RDD进行cache操作并执行count使得缓存生效: 执行count结果为: 此时耗时为0.21132s 再执行count操作: 此时耗时为0.029580s,这时因为我们自己基于cache后的数据

Spark API编程动手实战-06-对搜狗日志文件深入实战操作

本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html 我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示: 上传到服务器后,解压并查看: 查看Sogou文件内容: 该文件的格式如下所示: 访问时间 \t 用户ID \t 查询词 \t 该URL在返回结果中的排名 \ t用户点击的顺序号 \t 用户点击的URL 把解压后的文件上传到hdfs的data目录下: 查看web控制台: 大功告成,文件上传hdfs成功 接