征服Spark as a Service

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题,更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间可以无缝的共享数据和操作,这是当今任何大数据平台都无可匹敌的优势。

       在实际的生产环境中世界上已经出现很多一千个以上节点的Spark集群,以eBay为例,eBay的Spark集群节点已经超过2000个,Yahoo!等公司也在大规模的使用Spark,国内的淘宝、腾讯、百度、网易、京东、华为、大众点评、优酷土豆等也在生产环境下深度使用Spark。2014 Spark Summit上的信息,Spark已经获得世界20家顶级公司的支持,这些公司中包括Intel、IBM等,同时更重要的是包括了最大的四个Hadoop发行商都提供了对非常强有力的支持Spark的支持。

 

课程介绍  

课程深入浅出,以Spark内核和JobServer为核心,课程包含:

Spark的架构设计;

Spark编程模型;

Spark内核框架源码剖析;

Spark SQL;

Spark实时流处理;

JobServer使用;

JobServer框架解析;

JobServer源码解析;

培训对象

1, 云计算大数据从业者;

2, Hadoop使用者;

3,  系统架构师、系统分析师、高级程序员、资深开发人员;

4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

学员基础

对大数据感兴趣

王家林老师

中国目前唯一的移动互联网和云计算大数据集大成者;

云计算大数据Spark亚太研究院院长和首席专家;

Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

联系邮箱:[email protected]
  联系电话:18610086859

培训内容


第一天


第1堂课:Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

第2堂课:Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

第3堂课:深入Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

第4堂课:深入实战RDD

4.1 DAG

4.2 Spark Transformations

4.3 Spark Actions

4.4 RDD的优化问题

第5堂课:Spark SQL

5.1 Parquet支持

5.2 DSL

5.3 SQL on RDD


第二天


第6堂课:Spark实时流处理

6.1DStream

6.2 transformation

6.3 checkpoint

6.4 性能优化

第7堂课:JobServer

7.1 JobServer的架构设计

7.2 JobServer提供的接口

7.3 JobServer最佳实践

第8堂课:JobServer框架解析

8.1 JobServer源码解析

8.2 RddManagerActor源码解析

8.3 JobCache源码解析

8.4 JobResultActor源码解析

8.5 LocalContextSupervisorActor

第9堂课:JobServer框架解析

9.1 LRUCache源码解析

9.2 SparkContextFactory源码解析

9.3 ContextURLClassLoader源码解析

第10堂课:JobServer框架解析

10.1 JobDAO源码解析

10.2 JobFileDAO源码解析

10.3 JobSqlDAO源码解析

10.4 JobSqlDAOJdbcConfig源码解析

时间: 2024-12-05 09:44:30

征服Spark as a Service的相关文章

一天征服Spark!

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化.多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL.Spark Streaming.MLLib.GraphX近乎完美的解决了大数据中Batch Processing.Streaming Processing.Ad-hoc Query等三大核心问题,更为美妙的是在Spark中Spark SQL.Spark

Spark(十二) -- Spark On Yarn & Spark as a Service & Spark On Tachyon

Spark On Yarn: 从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度 进而可以实现不止Spark,多种处理框架并存工作的场景 部署Spark On Yarn的方式其实和Standalone是差不多的,区别就是需要在spark-env.sh中添加一些yarn的环境配置,在提交作业的时候会根据这些配置加载yarn的信息,然后将作业提交到yarn上进行管理 首先请确保已经部署了Yarn,相关操作请参考: hadoop2.2.0集群安装和配置 部署完

Spark生态系统解析及基于Redis的开源分布式服务Codis

摘要:在第九期"七牛开发者最佳实践日"上,陈超就Spark整个生态圈进行了讲解,而刘奇则分享豌豆荚在Redis上的摸索和实践. 1月24日,一场基于Spark和Redis组成的分布式系统实践分享由Spark资深布道者陈超和豌豆荚资深系统架构师刘奇联手打造. 陈超:Spark Ecosystem & Internals 陈超(@CrazyJvm),Spark布道者 在分享中,陈超首先简短的介绍了Spark社区在2014年的发展:目前Spark的发布版本是1.2,整个2014年Sp

Spark 1.X 大数据视频教程

课程下载地址:链接:http://pan.baidu.com/s/1kTggcb9密码: 9mfn 网盘失效的话,请加QQ:3113533060 课程内容: 第一周 Spark生态系统概述与编程模型 Spark生态系统概述 回顾Hadoop MapReduce Spark运行模式 RDD Spark运行时模型简介 缓存策略介绍 transformation action lineage 容错处理 宽依赖与窄依赖 集群配置 第二周 深入Spark内核 Spark术语解释 集群概览 核心组件 数据本

大三学习规划路线图

路线图介绍: 本课程对大数据生态系统进行全方位讲解,有hadoop实操与底层原理应用,DFS与MapRedcue的全新解读,内含有全网独家发布的YARN调度框架的底层事件二次分发机制和Google源码级IPC和RPC的通信技术原理与报文字节码级别的协议分析,Scala语言的编程技巧与java语言的互操作性,Spark中数据处理如何弹性化.如何调优以及对Scala编程语言的典型应用.ZooKeeper作为分布式系统协同服务的原理实现与实战应用,zkCli下同zk的交互模式以及素有瑞士***之称的N

Hadoop Ecosystem related ports

本文总结了Hadoop生态系统中各个组件使用的端口,包括了HDFS,Map Reduce,HBase,Hive,Spark,WebHCat,Impala,Alluxio,Sqoop等,后续会持续更新. HDFS Ports: Service Servers Default Ports Used Protocol Description Need End User Access? Configuration Parameters NameNode WebUI Master Nodes (NameN

hive的 安装和配置

2. 配置过程 2.1. 解压文件配置环境变量 解压文件 $ tar -xzvf hive-x.y.z.tar.gz 1 配置环境变量 export HIVE_HOME={{pwd}} export PATH=$HIVE_HOME/bin:$PATH 1 2 将mysql的JDBC包放到hive的lib文件夹中.注意是.jar文件 2.2. 配置hive-env.sh HADOOP_HOME=/opt/modules/hadoop-3.0.3 export HIVE_CONF_DIR=/opt/

Deploying OpenFire for IM (instant message) service (TCP/IP service) with database MySQL , client Spark on linux部署OpenFire IM 消息中间件服务

Are you a hacker? How to build another QQ/Wechat/whatsapp/skype/imessage? Let's go through this!!!! Materials: A linux/unix/windows/mac computer/server, and do some basic things! Are you feeling high? Okay, let's ride the rocket! Get materials: 1. A

Spark技术内幕:Spark Pluggable框架详解,你怎么开发自己的Shuffle Service?

首先介绍一下需要实现的接口.框架的类图如图所示(今天CSDN抽风,竟然上传不了图片.如果需要实现新的Shuffle机制,那么需要实现这些接口. 1.1.1  org.apache.spark.shuffle.ShuffleManager Driver和每个Executor都会持有一个ShuffleManager,这个ShuffleManager可以通过配置项spark.shuffle.manager指定,并且由SparkEnv创建.Driver中的ShuffleManager负责注册Shuffl