Spark深入浅出企业级最佳实践

课程介绍

本课程是世界上第一Spark企业级最佳实践课程,课程包含:

Spark的架构设计;

Spark编程模型;

Spark内核框架源码剖析;

Spark的广播变量与累加器;

Shark的原理和使用;

Spark的机器学习;

Spark的图计算GraphX;

Spark SQL;

Spark实时流处理;

Spark程序的测试;

Spark的优化;

Spark on Yarn;

JobServer;

培训对象

1, 云计算大数据从业者;

2, Hadoop使用者;

3,  系统架构师、系统分析师、高级程序员、资深开发人员;

4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

学员基础

了解面向对象编程;

了解Linux的基本使用;

王家林老师(联系邮箱[email protected] 电话:18610086859 QQ:1740415547 微信号:18610086859)

中国目前唯一的移动互联网和云计算大数据集大成者;

云计算大数据Spark亚太研究院院长和首席专家;

Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的14不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

培训内容


第一天


第1堂课:Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

补充主题:快速掌握Scala

1 Scala变量声明、操作符、函数的使用实战

2 apply方法

3 Scal的控制结构和函数

4 Scala数组的操作、Map的操作

5 Scala中的类

6 Scala中对象的使用;

7 Scala中的继承

8 Scala中的特质

9 Scala中集合操作

第2堂课:Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

第3堂课:深入Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

第4堂课:Spark的广播变量与累加器

4.1 广播变量的机制

4.2 广播变量使用最佳实践

4.3 累加器的机制

4.4 累加器使用的最佳实践

第5堂课:编写Spark程序

5.1 程序数据的来源:File、HDFS、HBase、S3等

5.2 IDE环境构建

5.3 Maven

5.4 sbt.

5.5 编写并部署Spark程序的实例

第6堂课:SparkContext解析和数据加载以及存储

6.1 源码剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加载数据成为RDD

6.5 把数据物化


时间


內  容


备注


第二天


第7堂课:深入实战RDD

7.1 DAG

7.2 深入实战各种Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的优化问题

第8堂课:Shark的原理和使用

8.1 Shark与Hive

8.2 安装和配置Shark

8.3 使用Shark处理数据

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架构

第9堂课:Spark的机器学习

9.1 LinearRegression

9.2 K-Means

9.3 Collaborative Filtering

第10堂课:Spark的图计算GraphX

10.1 Table Operators

10.2 Graph Operators

10.3 GraphX

第11堂课:Spark SQL

11.1 Parquet支持

11.2 DSL

11.3 SQL on RDD


时间


內  容


备注


第三天


第12堂课:Spark实时流处理

12.1 DStream

12.2 transformation

12.3 checkpoint

12.4 性能优化

第13堂课:Spark程序的测试

13.1 编写可测试的Spark程序

13.2 Spark测试框架解析

13.3 Spark测试代码实战

第14堂课:Spark的优化

14.1 Logs

14.2 并发

14.3 内存

14.4 垃圾回收

14.5 序列化

14.6 安全

第15堂课:Spark on Yarn

15.1 Spark on Yarn的架构原理

15.2 Spark on Yarn的最佳实践

第16堂课:JobServer

16.1 JobServer的架构设计

16.2 JobServer提供的接口

16.3 JobServer最佳实践

时间: 2024-12-14 18:43:40

Spark深入浅出企业级最佳实践的相关文章

决胜大数据时代:Hadoop&Yarn&Spark企业级最佳实践(8天完整版脱产式培训版本)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 课程简介 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿

决胜大数据时代:Hadoop&Yarn&Spark企业级最佳实践(3天)

Hadoop是云计算的事实标准软件框架,是云计算理念.机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容. Yarn是目前公认的最佳的分布式集群资源管理框架: Mahout是目前数据挖掘领域的王者:        工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出: “2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)”,重点在基础技术研究和公共部门应用上加大投入.在该计划支持下,加州大学伯克利分校开发了完整

Hadoop&Yarn&Mahout&Spark企业级最佳实践(3天)

Hadoop是云计算的事实标准软件框架,是云计算理念.机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容. Yarn是目前公认的最佳的分布式集群资源管理框架: Mahout是目前数据挖掘领域的王者 : 工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出: “2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)”,重点在基础技术研究和公共部门应用上加大投入.在该计划支持下,加州大学伯克利分校开发了完整的大数据开源

Hadoop大数据时代:Hadoop&YarnSpark企业级最佳实践 (4天)

Hadoop.Yarn.Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课. 大数据时代的精髓技术在于Hadoop.Yarn.Spark,是大数据时代公司和个人必须掌握和使用的核心内容. Hadoop.Yarn.Spark是Yahoo!.阿里淘宝等公司公认的大数据时代的三大核心技术,是大数据处理的灵魂,是云计算大数据时代的技术命脉之所在,以Hadoop.Yarn.Spark为基石构建起来云计算大数据中心广泛运行于Yahoo!.阿里淘宝.腾

Android企业级最佳实践高手之路

如何从一个Android程序员到成为一个高手级别的Android开发者和架构师,是每个Android开发者和管理者关心的核心问题,成功的从一个Android程序员到架构师,需要掌握: 1, Android开发与架构,具备Android系统式如何驾驭开发者与架构者的的能力: 2, 通晓Android程序开发的最佳模式,当你直到这个最佳模式的时候,你会发现AsyncTask是Android的败笔,而且这个败笔一直未能够在版本升级中解决: 3, 理解Android程序开发和运行背后的控制者: 4, 合

Android应用开发企业级最佳实践

一:家林的话: APK是AF(Application Framework)和应用开发工程师共同智慧的结晶,APK的运行是AF和应用开发工程师开发的Code相互作用. 本课程依据和Android之父以及Google.三星.HTC中的Android团队合作的经验,力求从设计者的角度带领大家彻底洞悉AF,先从AF的架构和移植讲起,然后详细的以AMS.PMS.WMS的Code细致验证和深度剖析,最后以ANR的彻底剖析结束. 二:这个课程能带给您什么价值? 1, 有Android App开发经验应用软件开

企业级最佳实践--------Centos 6最小安装

1. 背景 CentOS(Community Enterprise Operating System,中文意思是:社区企业操作系统)是Linux发行版之一,它是来自于Red Hat Enterprise Linux依照开放源代码规定释出的源代码所编译而成.由于出自同样的源代码,因此有些要求高度稳定性的服务器以CentOS替代商业版的Red Hat Enterprise Linux使用.两者的不同,在于CentOS并不包含封闭源代码软件. 2. 选择的理由 * 稳定的环境 * 长期的升级更新支持

Spark企业级开发最佳实践

课程介绍 本课程是世界上第一Spark企业级最佳实践课程,课程包含: Spark的架构设计: Spark编程模型: Spark内核框架源码剖析: Spark的广播变量与累加器: Shark的原理和使用: Spark的机器学习: Spark的图计算GraphX: Spark SQL: Spark实时流处理: Spark程序的测试: Spark的优化: Spark on Yarn: JobServer: 最后以一个商业级别的Spark案例为基础,实战展示商业级别Spark项目的架构设计.实现和优化:

Scala 深入浅出实战经典 第65讲:Scala中隐式转换内幕揭秘、最佳实践及其在Spark中的应用源码解析

王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 腾讯微云:http://url.cn/TnGbdC 360云盘:http://yunpan.cn/cQ4c2UALDjSKy 访问密码 45e2土豆:http://www.tudou.com/programs/view/NGgUD5FBQaA/优酷:http://v.youku.com/v_show/id_