链接:http://pan.baidu.com/s/1dFqbD4l 密码:treq
1.课程研发环境
项目源代码以spark1.5.2,jdk8,scala2.10.5为基准。
开发工具:SCALA IDE eclipse;
其他工具:shell脚本
2.内容简介
本教程从最基础的Spark介绍开始,介绍Spark的各种部署模式以及动手进行搭建,然后逐步介绍其中RDD的计算模型,创建和常用的操作,以及其中一些分布式计算,RDD持久化,容错,shuffle机制,共享变量等内容。
而后在RDD的基础上,讲解SparkSQL的子框架,介绍dataframe,使用场景,创建方法,对parquet等文件格式和不同类型的数据源的支持,对hive的兼容和整合,以及对传统数据库的JDBC的支持,和thriftserver的部署等。再配合一些实战动手的实验来加深对dataframe的理解和应用。
然后,讲解sparkstreaming的子框架,介绍DSTREAM的概念,使用场景,数据源,操作,容错,性能调优,还有与kafka的集成。
最后以2个项目来实际带学习者到开发环境中去动手开发,调试,一些基于SparkSQL,SparkStreaming,kafka的实战项目,加深大家对Spark应用开发的理解。其中简化了企业里的实际业务逻辑,加强对错误调试的分析和思路上的启发,使得学习者更容易掌握Spark的开发技巧。
时间: 2024-10-03 22:39:44