Spark学习体系

底理解Spark,能够分为以下几个层次。

1 Spark基础篇
	1.1 Spark生态和安装部署
		在安装过程中,理解其基本操作步骤。
		安装部署
		  Spark安装简单介绍
		  Spark的源代码编译
		  Spark Standalone安装
		  Spark Standalone HA安装
		  Spark应用程序部署工具spark-submit
		Spark生态
		  Spark(内存计算框架)
		  SparkSteaming(流式计算框架)
		  Spark SQL(ad-hoc)
		  Mllib(Machine Learning)
		  GraphX(bagel将被代替)
	1.2 Spark执行架构和解析
		Spark的执行架构
		  基本术语
		  执行架构
		  Spark on Standalone执行过程
		  Spark on YARN 执行过程
		Spark执行实例解析
		  Spark on Standalone实例解析
		  Spark on YARN实例解析

    1.3 Spark的监控和调优
		Spark的监控
		  Spark UI监控,默认port是4040
		  Ganglia 监控,大数据监控开源框架
		Spark调优
		  基础性调优方式
	1.4 Spark编程模型
	    Spark的编程模型
		  Spark编程模型解析
		  RDD的特点、操作、依赖关系
		  Spark应用程序的配置
	    Spark编程实例解析
		  日志的处理
	1.5 Spark Streaming原理
		  Spark流式处理架构
		  DStream的特点
		  Dstream的操作和RDD的差别
		  Spark Streaming的优化
		Spark Streaming实例分析
		  经常使用的实例程序:
				  文本实例
				  Window操作
				  网络数据处理
	1.6 Spark SQL原理
		  Spark SQL的Catalyst优化器
		  Spark SQL内核
		  Spark SQL和Hive
        Spark SQL的实例
		  Spark SQL的实例操作demo
		  Spark SQL的编程,须要网络上查找一些资源		  

2 中级篇
	2.1 Spark的多语言编程
        Spark的scala编程
        Spark的Python编程(Java一定熟悉啦,不用多说了)
           相应的应用程序实例,理解主要的处理模式。		

	2.2 Spark 机器学习入门
		机器学习的原理
		Mllib简单介绍,实例分析
    2.3 GraphX 入门
		图论基础
		GraphX的简单介绍
		GraphX例程分析
    2.4 理解Spark与其他项目的差别和联系
	    Spark和MapReduce、Tez
		Spark的衍生项目BlinkDB,RSpark
    2.5 关注Spark的作者的blog和权威站点的文档

3 高级篇
   3.1 深入理解Spark的架构和处理模式

   3.2 Spark源代码剖析与研读
        Spark Core核心模块,
		掌握以下核心功能的处理逻辑:
			SparkContext
			Executor
			Deploy
			RDD和Storage
			Scheduler和Task
		Spark Examples
	3.3 思考怎样优化和提升,掌握其优缺点,
	    深入思考能不能衍生出有意思的课题。

以上就是学习Spark的有关内容和步骤,详细怎样学习,仁者见仁智者见智。

Spark学习体系

时间: 2024-11-06 03:38:05

Spark学习体系的相关文章

Spark学习体系整理(基础篇、中级篇、高级篇所涉及内容)

新手刚开始学习比较迷茫,参考下面,然后找相关资料学习 1 Spark基础篇      1.1 Spark生态和安装部署          在安装过程中,理解其基本操作步骤.          安装部署            Spark安装简介            Spark的源码编译            Spark Standalone安装            Spark Standalone HA安装            Spark应用程序部署工具spark-submit      

想学习大数据?这才是完整的大数据学习体系

大数据 干货走起,闲话不多说,以下就是小编整理的大数据学习思路 第一阶段:linux系统 本阶段为大数据学习入门基础课程,帮大家进入大数据领取打好Linux基础,以便更好的学习Hadoop.habse.NoSQL.saprk.storm等众多技术要点. 另:目前企业中无疑例外是使用Linux来搭建或部署项目的 第二阶段:大型网站高并发处理 本阶段的学习是为了让大家能够了解大数据的源头,数据从而而来,继而更好的了解大数据.通过学习处理大型网站高并发问题反向的更加深入的学习Linux,同事站在了更高

Java学习体系

一.JavaSE1.Java开发环境搭建2.Java基础语法3.Java面向对象4.异常5.数组/算法6.常用类7.集合/数据结构8.IO流9.线程10.反射机制11.网络编程12.注解Annotation13.MySQL初级14.JDBC 二.JavaWeb初级1.HTML/HTML52.CSS/CSS33.JavaScript4.jQuery5.Bootstrap6.XML+XPath7.Servlet8.Jsp9.EL10.JSTL11.Filter12.Listener13.Servle

Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习 简述总结 引言 1 Hadoop 和 Spark 的关系 Spark 系统架构 1 spark 运行原理 RDD 初识 shuffle 和 stage 性能优化 1 缓存机制和 cache 的意义 2 shuffle 的优化 3 资源参数调优 4 小结 本地搭建 Spark 开发环境 1 Spark-Scal

Spark学习四:网站日志分析案例

Spark学习四:网站日志分析案例 标签(空格分隔): Spark Spark学习四网站日志分析案例 一创建maven工程 二创建模板 三日志分析案例 一,创建maven工程 1,执行maven命令创建工程 mvn archetype:generate -DarchetypeGroupId=org.scala-tools.archetypes -DarchetypeArtifactId=scala-archetype-simple -DremoteRepositories=http://scal

Spark学习三:Spark Schedule以及idea的安装和导入源码

Spark学习三:Spark Schedule以及idea的安装和导入源码 标签(空格分隔): Spark Spark学习三Spark Schedule以及idea的安装和导入源码 一RDD操作过程中的数据位置 二Spark Schedule 三Idea导入spark源码 一,RDD操作过程中的数据位置 [hadoop001@xingyunfei001 spark-1.3.0-bin-2.5.0]$ bin/spark-shell --master local[2] val rdd = sc.t

Spark学习七:spark streaming与flume集成

Spark学习七:spark streaming与flume集成 标签(空格分隔): Spark 一,启动flume flume-conf.properties文件 agent002.sources = sources002 agent002.channels = channels002 agent002.sinks = sinks002 ## define sources agent002.sources.sources002.type = exec agent002.sources.sour

Spark学习六:spark streaming

Spark学习六:spark streaming 标签(空格分隔): Spark Spark学习六spark streaming 一概述 二企业案例分析 三Spark streaming的工作原理 四textFileStreaming的应用 四企业中的开发方式 五总结 一,概述 一个简单的实例 1,安装nc nc -lk 9999 2,启动应用 ./bin/run-example streaming.NeworkWordCount localhost 9999 二,企业案例分析 需求: 实时统计

Spark学习八:spark streaming与flume和kafka集成

Spark学习八:spark streaming与flume和kafka集成 标签(空格分隔): Spark Spark学习八spark streaming与flume和kafka集成 一Kafka 二flume和kafka的集成 三kafka和spark streaming的集成方式一kafka推送 四kafka和spark streaming的集成方式一spark streaam主动获取 五spark stream的高级应用updateStateByKey实现累加功能 六spark stre