spark的action和transformations汇集

汇总了Spark支持的Transformations 和Actions 用于备忘！

参考 http://spark.apache.org/docs/latest/programming-guide.html#transformations

若想看中文的，可以参考其它博客（没这里全面）：http://blog.csdn.net/egraldloi/article/details/16343733

时间： 2024-10-10 22:58:10

spark的action和transformations汇集的相关文章

Spark RDD Action操作

reduce def reduce(f: (T, T) => T): T通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 1 2 3 4 5 6 7 8 9 10 11 scala> val rdd1 = sc.makeRDD(1 to 10,2) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24 scala> rdd1.r

Spark in action Spark 以及SparkR的安装配置说明

Spark以及SparkR的安装(standalone模式) From :ssdutsu @ Inspur Company [email protected] 操作系统 CentOS 7 Java 版本 JDK 1.7 Spark安装过程请见PDF文件 Spark 1.0的安装配置文件网址:http://www.it165.net/admin/html/201407/3379.html (别忘了配置免密码登陆和关闭防火墙) 下面重点描述如何在linux环境下安装R,Rstudio 以及Spa

spark源代码action系列-foreach与foreachPartition

RDD.foreachPartition/foreach的操作在这个action的操作中: 这两个action主要用于对每一个partition中的iterator时行迭代的处理.通过用户传入的function对iterator进行内容的处理. 首先我们先看看foreach的操作: 在fureach中,传入一个function,这个函数的传入參数就是每一个partition中,每次的foreach得到的一个rdd的kv实例,也就是详细的内容,这样的处理你并不知道这个iterator的forea

Spark RDD Action 简单用例(二)

foreach(f: T => Unit) 对RDD的所有元素应用f函数进行处理,f无返回值./** * Applies a function f to all elements of this RDD. */def foreach(f: T => Unit): Unit scala> val rdd = sc.parallelize(1 to 9, 2) rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at p

Spark RDD Action 简单用例(一)

collectAsMap(): Map[K, V] 返回key-value对,key是唯一的,如果rdd元素中同一个key对应多个value,则只会保留一个./** * Return the key-value pairs in this RDD to the master as a Map. * * Warning: this doesn't return a multimap (so if you have multiple values to the same key, only * on

Spark调研笔记第5篇 - Spark API简单介绍

因为Spark是用Scala实现的,所以Spark天生支持Scala API.此外,还支持Java和Python API. 以Spark 1.3版本号的Python API为例.其模块层级关系例如以下图所看到的: 从上图可知,pyspark是Python API的顶层package,它包括了几个重要的subpackages.当中: 1) pyspark.SparkContext 它抽象了指向spark集群的一条连接,可用来创建RDD对象,它是API的主入口. 2) pyspark.SparkCo

spark编程指南

去年学习Spark了一段时间,今年捡回来,发现好多东西都已经忘记了.现在讲官方网站上的东西转诉过来,回顾并记录下来. 概要从架构角度来看,每一个Spark应用由driver程序组成,在集群中运行用户的main函数和执行大量的parallel操作.Spark的核心抽象概念就是弹性分布式数据集(RDD),这是一种跨越并行集群中节点操作元素的集合.RDD在Hadoop文件系统上建立的(或者其他hadoop支持的文件系统),或现有的Scala集合中的驱动程序,并可以transforming.用户还可以

Spark调研笔记第5篇 - Spark API简介

由于Spark是用Scala实现的,所以Spark天生支持Scala API,此外,还支持Java和Python API.以Spark 1.3版本的Python API为例,其模块层级关系如下图所示: 从上图可知,pyspark是Python API的顶层package,它包含了几个重要的subpackages,其中: 1) pyspark.SparkContext 它抽象了指向spark集群的一条连接,可用来创建RDD对象,它是API的主入口. 2) pyspark.SparkConf 通过它

[Spark]-RDD详解之变量&操作

RDD的操作 1.1 概述 RDD整体包含两大类操作 transformation 从现有中创建一个新的数据集 action 在对数据集做一定程度的计算后将结果返回以MapReduce来说,Map就是一个transformation ,它是从每个文件块上执行一个方法来抽取转换,最终形成一个新的数据集.而Reduce就是一个action,它在对数据集执行一个函数进行计算后返回一个结果对于所有的transformation,都是Lazy的,也就是说它不会立即执行,只是单纯的记