Spark企业级开发最佳实践

课程介绍

本课程是世界上第一Spark企业级最佳实践课程,课程包含:

Spark的架构设计;

Spark编程模型;

Spark内核框架源码剖析;

Spark的广播变量与累加器;

Shark的原理和使用;

Spark的机器学习;

Spark的图计算GraphX;

Spark SQL;

Spark实时流处理;

Spark程序的测试;

Spark的优化;

Spark on Yarn;

JobServer;

最后以一个商业级别的Spark案例为基础,实战展示商业级别Spark项目的架构设计、实现和优化;

培训对象

1, 云计算大数据从业者;

2, Hadoop使用者;

3,  系统架构师、系统分析师、高级程序员、资深开发人员;

4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

学员基础

了解面向对象编程;

了解Linux的基本使用;

了解Scala语法

王家林老师(联系邮箱[email protected] 电话:18610086859 QQ:1740415547 微信号:18610086859)

中国目前唯一的移动互联网和云计算大数据集大成者;

云计算大数据Spark亚太研究院院长和首席专家;

Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

培训内容


第一天


第1堂课:Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

第2堂课:Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

第3堂课:深入Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

第4堂课:Spark的广播变量与累加器

4.1 广播变量的机制

4.2 广播变量使用最佳实践

4.3 累加器的机制

4.4 累加器使用的最佳实践

第5堂课:编写Spark程序

5.1 程序数据的来源:File、HDFS、HBase、S3等

5.2 IDE环境构建

5.3 Maven

5.4 sbt.

5.5 编写并部署Spark程序的实例

第6堂课:SparkContext解析和数据加载以及存储

6.1 源码剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加载数据成为RDD

6.5 把数据物化


时间


內  容


备注


第二天


第7堂课:深入实战RDD

7.1 DAG

7.2 深入实战各种Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的优化问题

第8堂课:Shark的原理和使用

8.1 Shark与Hive

8.2 安装和配置Shark

8.3 使用Shark处理数据

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架构

第9堂课:Spark的机器学习

9.1 LinearRegression

9.2 K-Means

9.3 Collaborative Filtering

第10堂课:Spark的图计算GraphX

10.1 Table Operators

10.2 Graph Operators

10.3 GraphX

第11堂课:Spark SQL

11.1 Parquet支持

11.2 DSL

11.3 SQL on RDD


时间


內  容


备注


第三天


第12堂课:Spark实时流处理

12.1 DStream

12.2 transformation

12.3 checkpoint

12.4 性能优化

第13堂课:Spark程序的测试

13.1 编写可测试的Spark程序

13.2 Spark测试框架解析

13.3 Spark测试代码实战

第14堂课:Spark的优化

14.1 Logs

14.2 并发

14.3 内存

14.4 垃圾回收

14.5 序列化

14.6 安全

第15堂课:Spark on Yarn

15.1 Spark on Yarn的架构原理

15.2 Spark on Yarn的最佳实践

第16堂课:JobServer

16.1 JobServer的架构设计

16.2 JobServer提供的接口

16.3 JobServer最佳实践

第17堂课:Spark项目案例实战

17.1 Spark项目的最佳架构模式

17.2 案例的介绍和架构

17.3 案例的源码实现

17.4 调优

时间: 2024-11-04 20:17:43

Spark企业级开发最佳实践的相关文章

OpenStack企业级开发最佳实践

培训目标: OpenStack云平台技术是开源云计算技术中的主流技术,已得到大量主流商业厂商和研究机构的大力支持.在未来的几年中,OpenStack会对云计算以及IT领域产生极大的影响. 本课程从OpenStack云平台的发展历程.体系架构.关键技术.主要应用领域以及相应的发展策略.课程通过丰富的技术知识与应用案例的分享,以及对OpenStack云平台浅显易懂的讲解分析,引导学员对 OpenStack技术有一个更为清晰.准确的理解和认识. 课程对OpenStack的各个组件进行详细的讲解,让学员

Android企业级应用程序开发完整训练:精通Android商业级开发最佳实践的24堂课

从企业级商业实战的角度入手,24小时内通过23个动手实战案例,循序渐进的对Android商业级别的应用程序开发要点各个击破,依托于在多年的Android(6款完整的硬件产品和超过20款应用软件)开发和企业级培训经验(超过150期的次Android的企业内训和公开课),旨在在实务的基础之上帮助你完成任何复杂程序的高质量Android应用程序开发,让Android开发跟上想象的速度.最后,通过ActivityManagerService揭秘Android应用程序一切行为背后的核心根源,让你从此开发应

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS.MapReduce.BigTable相对的HDFS.MapReduce.和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔. 二:课程特色 1,      深入浅出中动手实作: 2,      掌握Hadoop三大核心:HDFS.Map

[1.30] 保持的力量:接口开发最佳实践

神啊,求你赐给我平静的心,去接受我无法改变的事:赐给我勇气,去做我能改变的事:赐给我智慧,去分辨两者的不同. --平静之祷 1.30.1 论保持的力量 追到一个心仪的女生不难,难于如何保持和培养一份真挚的感情:获得一时的财富也不难,难于如何长久保持收益:创业的公司很容易博得一时媒体的关注以及某次天使的投资,但难于如何排除各种障碍.充分利用各方资源发展成中企业及至上市公司. 同样,提供一时的接口很容易,但当我们需要不断为接口提供升级,以及当我们维护提供一整套接口时,面临的困难和问题会越来越大.所以

【微信公众平台开发最佳实践】正品!包邮!半价!双12特惠,仅此一天,微信开发必备,请尽快购买!

[正品!五折!包邮!] #史上最低价,错过等明年!# 微信开发必备宝典 <微信公众平台开发最佳实践>双12盛典, 定价69,现价34.5元, 点此购买

移动端WEB前端开发最佳实践

移动端WEB前端开发最佳实践 Safari,Android Browser,Chrome都是以WebKit为核心的 移动设备和PC之间的页面现实存在差异(Safari中定义了viewport) 在移动设备和桌面端WEB前端开发中,事件绑定存在差异(移动触点) 页面控件设计存差异(点触不灵敏,虚拟键盘弹出框) 移动设备的网络带宽普遍比PC慢,移动页面要设置更简洁 PC页面兼容移动设备 使用流式布局 借助CSS Media queries(媒体查询)技术 使用合适的图片显示兼容方案 保持页面简洁,不

Hadoop MapReduce开发最佳实践(上篇)

body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;}

【微信公众平台开发最佳实践】双11特惠,仅此一天,请尽快购买!

#史上最低价,错过等明年#[微信公众平台开发最佳实践]天猫特惠价34.5元,仅限11.11.地址 http://detail.tmall.com/item.htm?id=38792603170

web移动开发最佳实践之 css篇

web移动开发最佳实践之 css篇 一.css概述 css即层叠样式表(Cascading Style Sheets),它的作用主要是控制页面元素的样式,包括布局.颜色.字体.字号.空白.边框.属性等等.css的出现使得html的内容和样式分离,极大的提高了工作效率. 目前最新的标准是css3,下面几节将介绍在使用css过程中应遵循的最佳实践方案. 二.使用高效的css选择器 欲创建一个高效的web应用,你要了解浏览器是如何读取你的web页面并呈现出来的.当浏览器读取你的html文档时,它首先对