记载我的spark源码阅读火花

知识点：

1、seq:列表，适合存有序重复数据，进行快速插入/删除元素等场景,

Set是集合，适合存无序非重复数据，进行快速查找海量元素等场景

memoryKeys = Seq(
  )

2、private 声明变量为私有

private val hadoopConf = SparkHadoopUtil.get.newConfiguration(conf)

private[this] val value

private[spark]，声明变量为私有，并且在包spark是可见的，这里的[spark],是一种保护的作用域。

这是Master的类声明，同样在master域里

private[master] class Master(

3、没有括号的函数

下面是个函数调用

hellotheworld     //无参数不括号

4、可变参数的函数

(s:*)={
  s.foreach(x=>(x))
}

5、函数的奇葩定义：

(x:y:):=x+y          =(x:y:)=>x+y       (x:)(y:):=x+y        anonymous=(x:y:)=>x+y

6、import:可以在任何地方出现，作用范围是直到包含该语句的块末尾，好处是避免产生名称冲突。

SparkConf(loadDefaults: Boolean) Cloneable Logging {

  SparkConf._

7、this：函数的末尾最后一句

setExecutorEnv(variables: Seq[(StringString)]): SparkConf = {
  ((kv) <- variables) {
    setExecutorEnv(kv)
  }
  }

该函数返回SparkConf类型的值

8、模式匹配之master配置类型

master match{
case "local" =>
case LOCAL_N_REGEX(threads) =>
case LOCAL_N_FAILURES_REGEX(threads, maxFailures) =>
case SPARK_REGEX(sparkUrl) =>
case LOCAL_CLUSTER_REGEX(numSlaves, coresPerSlave, memoryPerSlave) =>

case "yarn-standalone" | "yarn-cluster" =>

case "yarn-client" =>

case SIMR_REGEX(simrUrl) =>

case mesosUrl @ MESOS_REGEX(_) =>

可见有上述几种配置类型

9、scala的Parallelize实现

第一种RDD生产方式，就是从本地的collection生成，可以看见生成的是ParallelCollectionRDD类型的

parallelize[T: ClassTag](
    seq: Seq[T]numSlices: Int = defaultParallelism): RDD[T] = withScope {
  assertNotStopped()
  ParallelCollectionRDD[T](seqnumSlicesMap[IntSeq[String]]())
}

时间： 2024-11-14 14:56:55

记载我的spark源码阅读火花的相关文章

[Apache Spark源码阅读]天堂之门——SparkContext解析

稍微了解Spark源码的人应该都知道SparkContext,作为整个Project的程序入口,其重要性不言而喻,许多大牛也在源码分析的文章中对其做了很多相关的深入分析和解读.这里,结合自己前段时间的阅读体会,与大家共同讨论学习一下Spark的入口对象—天堂之门—SparkContex. SparkContex位于项目的源码路径\spark-master\core\src\main\scala\org\apache\spark\SparkContext.scala中,源文件包含Classs Sp

【Spark】配置Spark源码阅读环境

Scala构建工具(SBT)的使用 SBT介绍 SBT是Simple Build Tool的简称,如果读者使用过Maven,那么可以简单将SBT看做是Scala世界的Maven,虽然二者各有优劣,但完成的工作基本是类似的. 虽然Maven同样可以管理Scala项目的依赖并进行构建,但SBT的某些特性却让人如此着迷,比如: 使用Scala作为DSL来定义build文件(one language rules them all); 通过触发执行(trigger execution)特性支持持续的编译与

Spark源码阅读笔记之Broadcast(一)

Spark源码阅读笔记之Broadcast(一) Spark会序列化在各个任务上使用到的变量,然后传递到Executor中,由于Executor中得到的只是变量的拷贝,因此对变量的改变只在该Executor有效.序列化后的任务的大小是有限制的(由spark.akka.frameSize决定,值为其减去200K,默认为10M-200K),spark会进行检查,超出该限制的任务会被抛弃.因此,对于需要共享比较大的数据时,需要使用Broadcast. Spark实现了两种传输Broadcast的机制:

第3课 Scala函数式编程彻底精通及Spark源码阅读笔记

本课内容: 1:scala中函数式编程彻底详解 2:Spark源码中的scala函数式编程 3:案例和作业函数式编程开始: def fun1(name: String){ println(name) } //将函数名赋值给一个变量,那么这个变量就是一个函数了. val fun1_v = fun1_ 访问 fun1_v("Scala") 结果:Scala 匿名函数:参数名称用 => 指向函数体 val fun2=(content: String) => println(co

Spark源码阅读(1): Stage划分

Spark中job由action动作生成,那么stage是如何划分的呢?一般的解答是根据宽窄依赖划分.那么我们深入源码看看吧一个action 例如count,会在多次runJob中传递,最终会到一个函数 dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)dagScheduler是DAGScheduler的一个实例,因此,后面的工作都交给DAGSchedul

Spark修炼之道（高级篇）——Spark源码阅读：第一节 Spark应用程序提交流程

作者:摇摆少年梦微信号: zhouzhihubeyond spark-submit 脚本应用程序提交流程在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下: root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# ./spark-submit --master spark://sparkmaster:7077 --class SparkWordC

Spark修炼之道（高级篇）——Spark源码阅读：第十节 Standalone运行模式解析

Spark Standalone采用的是Master/Slave架构,主要涉及到的类包括: 类:org.apache.spark.deploy.master.Master 说明:负责整个集群的资源调度及Application的管理. 消息类型: 接收Worker发送的消息 1. RegisterWorker 2. ExecutorStateChanged 3. WorkerSchedulerStateResponse 4. Heartbeat 向Worker发送的消息 1. Registered

Spark修炼之道（高级篇）——Spark源码阅读：第二节 SparkContext的创建

博文推荐:http://blog.csdn.net/anzhsoft/article/details/39268963,由大神张安站写的Spark架构原理,使用Spark版本为1.2,本文以Spark 1.5.0为蓝本,介绍Spark应用程序的执行流程. 本文及后面的源码分析都以下列代码为样板 import org.apache.spark.{SparkConf, SparkContext} object SparkWordCount{ def main(args: Array[String])

Spark修炼之道（高级篇）——Spark源码阅读：第八节 Task执行

Task执行在上一节中,我们提到在Driver端CoarseGrainedSchedulerBackend中的launchTasks方法向Worker节点中的Executor发送启动任务命令,该命令的接收者是CoarseGrainedExecutorBackend(Standalone模式),类定义源码如下: private[spark] class CoarseGrainedExecutorBackend( override val rpcEnv: RpcEnv, driverUrl: St