课程下载地址:链接:http://pan.baidu.com/s/1kTggcb9密码: 9mfn
网盘失效的话,请加QQ:3113533060
课程内容:
第一周 Spark生态系统概述与编程模型
Spark生态系统概述
回顾Hadoop MapReduce
Spark运行模式
RDD
Spark运行时模型简介
缓存策略介绍
transformation
action
lineage
容错处理
宽依赖与窄依赖
集群配置
第二周 深入Spark内核
Spark术语解释
集群概览
核心组件
数据本地性
常用RDD
任务调度
DAGScheduler
TaskScheduler
Task细节
广播变量
累加器
性能调优
第三周 Spark on Yarn & Spark as a service
Spark on Yarn原理
Spark on Yarn实践
JobServer架构
JobServer API介绍
JobServer配置与部署
第四周 Spark Streaming原理与实践
DStream
数据源
无状态transformation与有状态transformation
checkpoint
容错
性能优化
第五周 Shark与Spark SQL
Shark数据模型
Shark数据类型
Shark架构
Shark部署
缓存(分区)表
SharkServer
Shark与Spark结合
Spark SQL架构
Parquet支持
DSL
SQL on RDD
Hive支持
UDF
JDBC Server
第六周 Machine Learning on Spark
LinearRegression
K-Means
Collaborative Filtering
第七周 Spark多语言编程
Python简介
PySpark API
使用Python编写Spark程序
Spark with Java
第八周 图计算GraphX
现存的图计算框架
Table Operators
Graph Operators
GraphX设计
第九周 Tachyon原理与实践
Tachyon原理与架构
Tachyon实践
第十周 SparkR
SparkR原理介绍
安装配置与运行
课程目录:
观看说明(必看)
课时1、培训须知
课时2、Spark生态系统概述与编程模型
课时3、Spark生态系统概述与编程模型(一)
课时4、Spark生态系统概述与编程模型(二)
课时5、Spark生态系统概述与编程模型(三)
课时6、Spark生态系统概述与编程模型(四)
课时7、第一周作业,请于9月21日晚12点前提交
课时8、资料
课时9、深入Spark内核(上)
课时10、深入Spark内核(下)
课时11、第二周作业,请于9月28日晚12点前提交
课时12、Spark on Yarn资料
课时13、JobServer资料
课时14、Spark on Yarn
课时15、Spark as a Service
课时16、第三周作业,请于10月5日晚12点前提交
课时17、Streaming资料
课时18、Spark Streaming(上)
课时19、Spark Streaming(下)
课时20、Streaming-1.x(变动)
课时21、第四周作业,请于10月12日晚12点前提交
课时22、Shark 与 Spark SQL资料
课时23、Shark(上)
课时24、Shark(下)
课时25、Spark SQL(上)
课时26、Spark SQL(下)
课时27、第五周作业,请于10月19日晚12点前提交
课时28、第六周课程资料
课时29、MLlib
课时30、Spark 1.x 变动说明
课时31、第六周作业,请于10月26日晚12点前提交
课时32、第七周资料
课时33、Spark多语言编程
课时34、补充说明
课时35、第七周作业,请于11月2日晚12点前提交
课时36、第八周资料
课时37、Tachyon(1)
课时38、Tachyon(2)
课时39、第八周作业,请于11月9日晚12点前提交
课时40、第九周资料
课时41、SparkR-Part1
课时42、SparkR-Part2
课时43、第九周作业,请于11月16日晚12点前提交
课时44、第十周资料
课时45、GraphX-Part1
课时46、GraphX-Part2
课时47、GraphX-Part3
课时48、第十周作业,请于11月23日晚12点前提交