老汤spark由浅入深深到底系列课程计划简介如下:
spark 2.x 由浅入深深到底一_正确理解spark(课程已经发布)
本课程不会有太多的技术细节,主要是一些分布式存储和计算的基本理念和思想
目标:
1: 彻底弄懂什么是RDD及其特点
2: 彻底弄懂什么是spark的分布式内存计算,进而理解spark真正解决的问题
3: 彻底弄懂spark是怎样解决各个领域问题,以及在解决各个领域问题的时候的特点
见:http://edu.51cto.com/course/10932.html
spark 2.x 由浅入深深到底二_RDD API(课程已经发布)
本课程主要是由浅入深深到底的讲述RDD的每一个API,以及会讲到SparkContext的部分Api
课程已经发布,见: http://edu.51cto.com/course/11058.html
spark 2.x 由浅入深深到底三_Spark core必备基础知识(会以免费的博客的形式给出)
本课程主要会深入理解spark core的三个基础组件以及我们深入理解spark需要的部分的基础java知识
目标:
1: spark的安全管理
2: spark的序列化机制
3: spark的RPC机制,包括部分的nio的知识点
4: Jvm启动机制以及类加载机制
spark 2.x 由浅入深深到底四_Spark core应用程序的提交流程
本课程主要包含了两个部分,一个是spark的集群的初始化原理,一个是spark-submit提交应用的原理流程
目标:
1: 彻底理解spark的脚本系统,我们可以借此机会看看世界上最优秀的项目的脚本是怎么设计和管理的
2: spark standalone 集群的初始化,包括Master和Worker的初始化,在这章节会搞清楚:
spark Master的高可用是怎么保证的
Worker节点是怎么注册到Master上的
了解Worker节点上的ExternalShuffleService
3: spark提交应用的几种方式,其中会重点讲解spark-submit这个脚本提交应用的原理、流程以及每一个提交参数的含义用法
spark 2.x 由浅入深深到底五_Spark core集群资源管理机制(会以免费的博客的形式给出)
本课程会详细的理解spark的三种资源管理机制:
1: spark自带的standalone模式
2: hadoop的yarn模式,这节课使的我们彻底弄明白spark是怎么基于yarn来跑任务的,以及我们怎么样去自己实现一个往yarn上提交应用的客户端
3: mesos模式,这节课使的我们彻底弄明白spark是怎么基于mesos来跑任务的,以及我们怎么样去自己实现一个往mesos上提交应用的客户端
4: spark在driver端是怎么进行executor资源的管理的
spark 2.x 由浅入深深到底六_Spark core之scheduler on driver
本课程会深入理解spark driver上的两个scheduler:
1: DAGScheduler,理解stage是什么、stage是怎么划分的以及stage是怎么调度的等
2: TaskScheduler,理解task是什么,task是怎么调度的,task的本地性是怎么计算的,task的推测机制是什么样的等
3: spark的累加器Accumulator的实现原理
spark 2.x 由浅入深深到底七_Spark core之components in SparkEnv(会以免费的博客的形式给出)
本课程主要是对spark driver端和executor端的执行环境的组件的深入理解:
1: Broadcast的实现原理
2: 内存管理实现原理
3: 存储管理实现原理
4: MapOutputTracker实现原理
5: shuffle管理原理实现
spark 2.x 由浅入深深到底八_Spark sql之catalyst
主要从如下几个方面来深入了解catalyst:
1: 基础数据结构tree and rule
2: 分析模块-analysis
3: 优化器 - optimizer
4: 物理执行计划的生成 - Physical Planning
5: code Generation
spark 2.x 由浅入深深到底九_Spark sql之sql core
主要是对Dataset的api进行讲解,以及从不同的数据源中读写数据
1: Dataset的api及其原理
2: 物理执行相应的RDD的详细讲解
3: 统一数据源,比如从parquet, json等读写数据
spark 2.x 由浅入深深到底十_Spark sql之sql with hive
1: 理解spark sql是怎么和hive结合的
2: 理解spark sql是怎么实现hive thriftServer的
spark 2.x 由浅入深深到底十一_Spark streaming
1: DStream api的使用和原理理解
2: 实时接收数据的原理,以及基于kafka和flume是怎么接收数据的
3: 实时的批处理job是怎么调度的 - JobGenerator
4: 实时接收到的数据是怎么跟踪的 - ReceiverTracker
spark 2.x 由浅入深深到底十二_Spark Graphx
1: EdgeRDD的构建
2: VertexRDD的构建
3: Graph的构建
4: Graph Api的使用及其原理