一. Spark源码编译
解析:
wget http://archive.apache.org/dist/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz gtar -zxvf spark-1.6.0-bin-hadoop2.6.tgz cd spark-1.6.0-bin-hadoop2.6 ./sbt/sbt gen-idea
说明:漫长的等待后,上述命令生成SBT工程,我们就可以使用IDEA以SBT Project的方式打开。
二. RDD实现详解
通过persist()或cache()方法可以持久化RDD,cache()是使用persist()的快捷方式。为了避免缓存丢失重新计算带来的开销,我们可以使用Spark的checkpoint机制,这样当下游的RDD出错时,便可以从checkpoint过的RDD那里继续开始计算即可。
三. Scheduler模块详解
四. Deploy模块详解
五. Executor模块详解
六. Shuffle模块详解
七. Storage模块详解
参考文献:
[1] Scala教程:简单构建工具SBT:http://www.importnew.com/4311.html
[2] Spark的Cache和Checkpoint:http://www.fuqingchuan.com/2015/06/949.html?utm_source=tuicool&utm_medium=referral
[3] Spark技术内幕:深入理解Spark内核架构设计与实现原理
时间: 2024-10-14 07:05:06