系统学习spark计划_spark老汤

老汤spark由浅入深深到底系列课程计划简介如下:

spark 2.x 由浅入深深到底一_正确理解spark(课程已经发布)

本课程不会有太多的技术细节,主要是一些分布式存储和计算的基本理念和思想

目标:

1: 彻底弄懂什么是RDD及其特点

2: 彻底弄懂什么是spark的分布式内存计算,进而理解spark真正解决的问题

3: 彻底弄懂spark是怎样解决各个领域问题,以及在解决各个领域问题的时候的特点

见:http://edu.51cto.com/course/10932.html

spark 2.x 浅入深深到底二_RDD API(课程已经发布)

本课程主要是由浅入深深到底的讲述RDD的每一个API,以及会讲到SparkContext的部分Api

课程已经发布,见: http://edu.51cto.com/course/11058.html

spark 2.x 浅入深深到底三_Spark core必备基础知识(会以免费的博客的形式给出)

本课程主要会深入理解spark core的三个基础组件以及我们深入理解spark需要的部分的基础java知识

目标:

1: spark的安全管理

2: spark的序列化机制

3: spark的RPC机制,包括部分的nio的知识点

4: Jvm启动机制以及类加载机制

spark 2.x 浅入深深到底四_Spark core应用程序的提交流程

本课程主要包含了两个部分,一个是spark的集群的初始化原理,一个是spark-submit提交应用的原理流程

目标:

1: 彻底理解spark的脚本系统,我们可以借此机会看看世界上最优秀的项目的脚本是怎么设计和管理的

2: spark standalone 集群的初始化,包括Master和Worker的初始化,在这章节会搞清楚:

spark Master的高可用是怎么保证的

Worker节点是怎么注册到Master上的

了解Worker节点上的ExternalShuffleService

3: spark提交应用的几种方式,其中会重点讲解spark-submit这个脚本提交应用的原理、流程以及每一个提交参数的含义用法

spark 2.x 浅入深深到底五_Spark core集群资源管理机制(会以免费的博客的形式给出)

本课程会详细的理解spark的三种资源管理机制:

1: spark自带的standalone模式

2: hadoop的yarn模式,这节课使的我们彻底弄明白spark是怎么基于yarn来跑任务的,以及我们怎么样去自己实现一个往yarn上提交应用的客户端

3: mesos模式,这节课使的我们彻底弄明白spark是怎么基于mesos来跑任务的,以及我们怎么样去自己实现一个往mesos上提交应用的客户端

4: spark在driver端是怎么进行executor资源的管理的

spark 2.x 浅入深深到底六_Spark corescheduler on driver

本课程会深入理解spark driver上的两个scheduler:

1: DAGScheduler,理解stage是什么、stage是怎么划分的以及stage是怎么调度的等

2: TaskScheduler,理解task是什么,task是怎么调度的,task的本地性是怎么计算的,task的推测机制是什么样的等

3: spark的累加器Accumulator的实现原理

spark 2.x 浅入深深到底七_Spark corecomponents in SparkEnv(会以免费的博客的形式给出)

本课程主要是对spark driver端和executor端的执行环境的组件的深入理解:

1: Broadcast的实现原理

2: 内存管理实现原理

3: 存储管理实现原理

4: MapOutputTracker实现原理

5: shuffle管理原理实现

spark 2.x 浅入深深到底八_Spark sqlcatalyst

主要从如下几个方面来深入了解catalyst:

1: 基础数据结构tree and rule

2: 分析模块-analysis

3: 优化器 - optimizer

4: 物理执行计划的生成 - Physical Planning

5: code Generation

spark 2.x 浅入深深到底九_Spark sqlsql core

主要是对Dataset的api进行讲解,以及从不同的数据源中读写数据

1: Dataset的api及其原理

2: 物理执行相应的RDD的详细讲解

3: 统一数据源,比如从parquet, json等读写数据

spark 2.x 浅入深深到底十_Spark sqlsql with hive

1: 理解spark sql是怎么和hive结合的

2: 理解spark sql是怎么实现hive thriftServer的

spark 2.x 浅入深深到底十一_Spark streaming

1: DStream api的使用和原理理解

2: 实时接收数据的原理,以及基于kafka和flume是怎么接收数据的

3: 实时的批处理job是怎么调度的 - JobGenerator

4: 实时接收到的数据是怎么跟踪的 - ReceiverTracker

spark 2.x 浅入深深到底十二_Spark Graphx

1: EdgeRDD的构建

2: VertexRDD的构建

3: Graph的构建

4: Graph Api的使用及其原理

时间: 2024-08-25 18:02:40

系统学习spark计划_spark老汤的相关文章

linux系统-进程管理-计划任务

linux系统-进程管理-计划任务 一 计划任务命令 1 at 某一时刻执行任务 2 batch 在系统负载不重的时候执行 3 cron 周期性执行 二 at命令及使用 1 at [-f文件名]时间 2 at [-d删除任务] 3 at [-l查看任务] 4 绝对计时法:hh:mm MM/DD/YY at 17:30 4/18/15 5 交互方式:at 9:00 6 使用命令文件的方式:生成文件at.script 使用at命令 at -f at.srcipt 9:00 4/18/15 or at

我的Linux成长路---001 Linux学习初期计划

Linux学习初期计划 1.Linux基础 Linux历史.Linux版本.Linux安装.shell命令 2.Linux系统管理 用户管理.文件权限管理.磁盘管理.进程管理.自动化任务.安装程序... 3.Linux服务器 用Linux做DNS.DHCP.VPN.流媒体.FTP.Web.代理服务器.邮件服务器... 用Linux实现路由功能.NAT功能 4.Linux安全 网络安全.系统安全.入侵检测 5.mySQL数据库 6.Oracle数据库

Linux系统学习之路和常用命令及其他系统相关内容

Linux系统学习之路 目录 Linux系统学习之路[第一篇]:Linux目录和基础知识 Linux系统学习之路[第二篇]:文件操作,文件查看,find查找 Linux系统学习之路[第三篇]:grep,vim,压缩功能详解 Linux系统学习之路[第四篇]:mount,rpm,yum,yum组讲解 Linux系统学习之路[第五篇]:用户和用户组管理 Linux系统学习之路[第六篇]:权限管理 Linux系统学习之路[第七篇]:磁盘和文件管理 Linux系统学习之路[第八篇]:LVM逻辑卷和RAI

【转】【重要】破除“系统学习”的情结

常有同学想在自己课外学习的安排中,“系统地”学习点什么.这样的事情常发生在喜欢做A专业的事,却上了B专业,且A不等于B,甚至相似度(A, B)趋于无穷.对有些同学,一不留神发现自己的学习落后了不少,比如学计算机的,到大三了,却发现连简单程序也编不出来,再如学完高数了,才知道高数原来 如此重要,于是想要系统地重学一遍. 何为系统学习?系统学习就是要按照已有的一套规定,先学什么,再学什么,按步就班地走完一个流程.为什么要系统学习?将做事能专业些.规定从何而来?业界专家.系统学习有什么好处?基础扎实.

最新2019学习路线,零基础怎么系统学习大数据?

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术.解决大数据问题的核心是大数据技术.零基础怎么系统学习大数据?首先我们先了解一下什么是大数据. 最新2019学习路线,零基础怎么系统学习大数据?"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取.管理和处理.大数据工程师需要学习哪些知识?创一个小群,供大家学习交流聊天如果有对学大数据方面有什么疑惑问题的,或者有什么想说的想聊的大家可以一起交流学习一起进步呀.也希望大家

Linux系统理解以及Linux系统学习心得

原创作品转载请注明出处  <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 作者:严哲璟 说一下我对Linux系统的理解 1.加载Linux内核准备:在加载基本输入输出模块(BIOS)之后,从磁盘的引导扇区读入操作系统的代码文件块到内存中,之后开始整个系统的初始化. 2.main.c的start_kernel函数是整个操作系统的入口,这也与Linux是基于C语言的特性相符,start_kernel具体做的动作很多

十七、linux系统的任务计划

linux系统的任务计划 #cron 定期自动执行某一个脚本 关于cron任务计划功能的操作都是通过crontab这个命令来完成的.其中常用的选项有: -u :指定某个用户,不加-u选项则为当前用户: -e :制定计划任务: -l :列出计划任务: -r :删除计划任务. [[email protected] ~]# crontab -e no crontab for root - using an empty one 使用 crontab -e 来进行编写任务计划,这实际上是使用vim工具打开

如何系统学习java体系?

如何系统学习java体系? | 浏览:1248 | 更新:2013-08-26 14:56 | 标签:java 1 2 3 4 分步阅读 Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言,它在工业界应用非常广泛,掌握好java这门技术,你能轻松找一份java程序员的工作. 工具/原料 一些书.一台电脑 方法/步骤 学java首先你要学 J2SE,它是java体系的基础,也是重中之重.很多人往往不重视基础,其实这是舍本逐末的做法.说这么多就是希望大家能重视基础,能在这条路上走的更远.

Linux系统学习日志Day01

Day01   Linux系统学习日志 (一)  Linux历史 创始人:林纳斯·托瓦兹 时间:1991 年10 月5 日(对外公开时间) 现状:多版本,有redhat.centos.Ubuntu.fedora (二)  Linux认证 管理员:RHCSA 需要掌握的知识: Linux的命令和日常维护,包括安装操作系统.构建网络连接.管理物理存储和执行基础安全管理. 工程师:RHCE 需要掌握的知识: RH124红帽企业Linux基础 RH134红帽企业Linux系统管理 RH254红帽企业Li