Spark编程模型及RDD操作 / 憋错料

转载自：http://blog.csdn.net/liuwenbo0920/article/details/45243775

1. Spark中的基本概念

在Spark中，有下面的基本概念。
Application:基于Spark的用户程序，包含了一个driver program和集群中多个executor
Driver Program：运行Application的main()函数并创建SparkContext。通常SparkContext代表driver program
Executor：为某Application运行在worker node上的饿一个进程。该进程负责运行Task，并负责将数据存在内存或者磁盘上。每个Application都有自己独立的executors
Cluster Manager: 在集群上获得资源的外部服务（例如 Spark Standalon，Mesos、Yarn）
Worker Node: 集群中任何可运行Application代码的节点
Task：被送到executor上执行的工作单元。
Job：可以被拆分成Task并行计算的工作单元，一般由Spark Action触发的一次执行作业。
Stage：每个Job会被拆分成很多组Task，每组任务被称为stage，也可称TaskSet。该术语可以经常在日志中看打。
RDD ：Spark的基本计算单元，通过Scala集合转化、读取数据集生成或者由其他RDD经过算子操作得到。

2. Spark应用框架

客户Spark程序（Driver Program）来操作Spark集群是通过SparkContext对象来进行，SparkContext作为一个操作和调度的总入口，在初始化过程中集群管理器会创建DAGScheduler作业调度和TaskScheduler任务调度。

DAGScheduler作业调度模块是基于Stage的高层调度模块(参考：Spark分析之DAGScheduler)，DAG全称 Directed Acyclic Graph，有向无环图。简单的来说，就是一个由顶点和有方向性的边构成的图中，从任意一个顶点出发，没有任何一条路径会将其带回到出发的顶点。它为每个Spark Job计算具有依赖关系的多个Stage任务阶段（通常根据Shuffle来划分Stage，如groupByKey, reduceByKey等涉及到shuffle的transformation就会产生新的stage），然后将每个Stage划分为具体的一组任务，以TaskSets的形式提交给底层的任务调度模块来具体执行。其中，不同stage之前的RDD为宽依赖关系。 TaskScheduler任务调度模块负责具体启动任务，监控和汇报任务运行情况。

创建SparkContext一般要经过下面几个步骤：

a). 导入Spark的类和隐式转换

Spark编程模型及RDD操作

2. Spark应用框架

3. RDD的创造

4. RDD操作

Transformations

(1). map(func)

2). filter(func)

(3). flatMap(func)

(4). mapPartitions(func)

(5). mapPartitionsWithIndex(func)

(6). sample(withReplacement,fraction, seed)

(7). union(otherDataset)

(8). intersection(otherDataset)

(9). distinct([numTasks]))

(10.)groupByKey([numTasks])

(11).reduceByKey(func, [numTasks])

(12).sortByKey([ascending], [numTasks])

(13). join(otherDataset, [numTasks])

(14).cogroup(otherDataset, [numTasks])

(15).cartesian(otherDataset)

(16). pipe(command, [envVars])

(17).coalesce(numPartitions)

(18).repartition(numPartitions)

Actions

(19). reduce(func)

(20). collect()

(21). count()

(22). first()

(23). take(n)

(24). countByKey()

(25). foreach(func)

(26). takeSample(withReplacement,num, seed)

(27). takeOrdered(n, [ordering])

(28). saveAsTextFile(path)

(29). saveAsSequenceFile(path)

(30). saveAsObjectFile(path)

5. RDD缓存

6. RDD的共享变量

Spark编程模型及RDD操作的相关文章