接触了Spark也快有半年了,版本从0.8.0到现在的1.0.0SNAPSHOT,从头到尾被spark这个优秀的框架深深吸引,也为scala的优雅所折服。4.19日“2014 中国Spark技术峰会”召开,可以看出随着Spark技术的完善,越来越多的企业已经开始使用或开始关注Spark的发展了。回顾学习过程,觉得很有必要整理一份学习路线,对所学的内容加以沉淀,同时也为同行作为参考。
因为Spark1.0.0即将发布,增加了很多特性,所以决定修改以前的博文,全都采用Spark1.0.0,计划写40-50篇左右的博文,尽量在7月底完成。
笔者在百度云盘上提供了本人编译的spark1.0.0-SNAPHOT的部署包,还提供了支持Tachyon0.4.1的部署包。实验环境所涉及的软件有:
1:原理篇
- RDD 细解
- DAG Scheduler 细解
- Task Scheduler 细解
- Spark1.0.0 Standalone 运行原理解析
- Spark1.0.0 on YARN 运行原理解析
- Spark1.0.0 on Mesos 运行原理解析
Spark1.0.0 编程模型
- Spark1.0.0 编程模型解析
Spark Streaming运行架构基本概念
2:运维篇
部署篇
- Spark1.0.0 的四种编译方法
- Spark1.0.0 on YARN 模式部署
- Spark1.0.0 on Mesos 模式部署
- Spark1.0.0 Standalone模式部署
- Spark1.0.0 Standalone HA实现
监控篇
- Spark1.0.0 UI监控解读
- 用ganglia监控Spark1.0.0
优化篇
- Spark1.0.0 的一些小经验
- Spark1.0.0 性能调优
3:Spark生态环境
Spark1.0.0 生态环境简介
Spark on SQL 简介
4:Spark开发
5:源码研读
Spark1.0.0 源码研读环境搭建
一张图看懂Spark源码
6:杂记
关于SPARK_WORKER_MEMORY和SPARK_MEM
在csdn上发布一下这博客,看看效果,如果好的话,将163.com上博客搬过来。因为要修改的东西太多,有点犹豫不决。
Spark1.0.0 学习路线
时间: 2024-10-10 12:15:28