Spark 编程基础

1. 初始化Spark

import org.apache.spark.{SparkContext, SparkConf}

val conf=new SparkConf().setAppName("RDD1").setMaster("local")
val sc=new SparkContext(conf)

2. 创建RDD的方法

内存：Parallelize 或者 makeRDD

外部文件：textFile

//1.  both Parallelize and makeRDD could create RDD from In-Memory
 val distData=sc.parallelize(data)                   // parallelize
 val distData1=sc.makeRDD(data)                 // makeRDD 

//2 textFile could create RDD from files
val distFile=sc.textFile("E:/Java_WS/ScalaDemo/data/wc.txt")

3. 键值对

下面两者等价：

myRDD. map (s=> (s,1))
myRDD. map (_,1)

reduceByKey 和sortByKey、groupByKey

distFile.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)
distFile.flatMap(_.split(" ")).map(s=>(s,1)).sortByKey().collect().foreach(println)
distFile.flatMap(_.split(" ")).map(s=>(s,1)).groupByKey().foreach(println)

1）返回key 以及每个key的个数（key, cnt)

2）返回 (key,value) 排序后的

3）返回(key, (value1,value2...))

4. RDD 持久化　　

persist() 或 cache()

unpersist() 可以删除缓存RDD

5. 广播变量和累加器

通过sc.broadcast(v) 和 sc.accumulator(初始值，comments)定义
通过value访问其值。
广播变量不能修改了
累加器只能通过add 或者 +=修改

//SparkContext.broadcast(v)  is a broadcast variable, could replace v in any place of the cluster
val broadcastVar=sc.broadcast(Array(1,2,3))
println(broadcastVar.value(0),broadcastVar.value(1),broadcastVar.value(2))

val accum=sc.accumulator(0,"My Accumulator")
sc.parallelize(Array(1,2,3,4)).foreach(x=>accum+=x)
println(accum.value)

时间： 2024-10-25 14:57:24

Spark 编程基础的相关文章

Spark编程基础

ISBN 9787115488169 之前我们已经完成了Hadoop+Spark集群的搭建,下面改用这本书. 教材,讲义,实验 sbt Spark应用程序开发可以采用Scala+sbt,Java+Maven,或Python直接spark-submit三种方式. 这里介绍通过sbt编译打包Scala程序的命令行方法,也可以使用Intellij idea或Eclipse等集成开发环境. 安装 echo "deb https://dl.bintray.com/sbt/debian /" |

Spark入门实战系列--3.Spark编程模型（上）--概念及SparkShell实战

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送–Spark入门实战系列>获取 1 Spark编程模型 1.1 术语定义应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor: 驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program: 执行单元(Executor): 是为某

Spark入门实战系列--3.Spark编程模型（下）--IDEA搭建及实战

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送–Spark入门实战系列>获取 1 安装IntelliJ IDEA IDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手.代码自动提示.重构.J2EE支持.Ant.JUnit.CVS整合.代码审查. 创新的GUI设计等方面的功能可以说是超常的.IDEA是JetBrains公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨

学大数据需要什么编程基础？大数据学习步骤是什么？

学大数据需要什么编程基础?大数据学习步骤是什么? 大数据是什么? 有很多朋友问过我,大数据到底是什么?一句话来- 学大数据需要什么编程基础?大数据学习步骤是什么?大数据是什么? 有很多朋友问过我,大数据到底是什么?一句话来概括针对非软件行业的朋友根据你平时在超市,加油站,饭店等地方的一些消费行为,通过大数据这个技术,我们可以知道你现在的年龄范围,是否婚配,是否有孩子,孩子大致是几岁,是否有固定住宅,车大致是什么价位的等信息. 针对软件行业的朋友平时我们写的程序都是在一台机器上运行,处理能力

1.5编程基础之循环控制_29:数字反转

/* 1.5编程基础之循环控制 29:数字反转总时间限制: 1000ms 内存限制: 65536kB 描述给定一个整数,请将该数各个位上数字反转得到一个新数. 新数也应满足整数的常见形式,即除非给定的原数为零, 否则反转后得到的新数的最高位数字不应为零(参见样例2). 输入输入共 1 行,一个整数N. -1,000,000,000 ≤ N≤ 1,000,000,000. 输出输出共 1 行,一个整数,表示反转后的新数. 样例输入样例 #1: 123 样例 #2: -380 样例输出样

网络编程基础

网络编程基础 1.套接字概念 Linux环境下使用套接字进行进程之间的通信.用过套接字的接口,其他进程的位置对于应用程序来讲是透明的.相互通信双方端点都有一个套接字,双方如果要进行通信,通过套接字建立桥梁,双方就可以通信了. 类似文件一样,套接字也有一个套接字描述符,应用程序可以像操作文件一样操作套接字.在进行网络通信的过程中,用户感觉就是在操作文件一样,这是Linux将外部设备抽象为一个文件的好处. 2.字节序不同主机的体系结构不同,所采用的数据存储方式不同.网络中,进程之间的通信是跨主机的

多线程编程基础知识

多线程编程基础知识 http://www.cnblogs.com/cy163/archive/2006/11/02/547428.html 当前流行的Windows操作系统能同时运行几个程序(独立运行的程序又称之为进程),对于同一个程序,它又可以分成若干个独立的执行流,我们称之为线程,线程提供了多任务处理的能力.用进程和线程的观点来研究软件是当今普遍采用的方法,进程和线程的概念的出现,对提高软件的并行性有着重要的意义.现在的大型应用软件无一不是多线程多任务处理,单线程的软件是不可想象的.因此掌握

shell 脚本编程基础

一.编程基础程序:指令+数据程序编程风格: 过程式:以指令为中心,数据服务于指令对象式:以数据为中心,指令服务于数据 shell程序:提供了编程能力,解释执行 1.程序的执行方式计算机:运行二进制指令: 编程语言: 低级:汇编高级: 编译:高级语言–>编译器–>目标代码 java,C# 解释:高级语言–>解释器–>机器代码 shell, perl, python 2.编程基本概念编程逻辑处理方式: 顺序执行循环执行选择执行 shell编程:过程式.解释执行编程语言

DAY9:bash脚本编程基础（1）

内容主要为: 一.编程基础二.shell脚本及其基本格式三.变量四.运算五.条件测试六.流程控制一.编程基础 1)程序程序:指令+数据程序编程风格: 过程式:以指令为中心,数据服务于指令(C,bash) 对象式:以数据为中心,指令服务于数据 (java,C++,Python) shell程序:提供了编程能力,解释执行 2)程序的执行方式计算机:运行二进制指令: 编程语言: 低级:汇编高级: 编译:高级语言-->编译器-->目标代码 java,C# 解释:高级语言-->