Spark 1.0.0企业级开发动手:实战世界上第一个Spark 1.0.0课程,涵盖Spark 1.0.0所有的企业级开发技术

课程介绍

2014年5月30日发布了Spark 1.0.0版本,而本课程是世界上第一个Spark1.0.0企业级实践课程,课程包含Spark的架构设计、Spark编程模型、Spark内核框架源码剖析、Spark的广播变量与累加器、Shark的原理和使用、Spark的机器学习、Spark的图计算GraphX、Spark SQL、Spark实时流处理、Spark的优化、Spark on Yarn、JobServer等Spark 1.0.0所有的核心内容

最后以一个商业级别的Spark案例为基础,实战展示商业级别Spark项目的架构设计、实现和优化;

培训对象

1, 云计算大数据从业者;

2, Hadoop使用者;

3,  系统架构师、系统分析师、高级程序员、资深开发人员;

4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

学员基础

了解面向对象编程;

了解Linux的基本使用;

了解Scala语法

王家林老师(联系邮箱[email protected] 电话:18610086859 QQ:1740415547 微信号:18610086859)

中国目前唯一的移动互联网和云计算大数据集大成者;

云计算大数据Spark亚太研究院院长和首席专家;

Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书作者;

培训内容


第一天


第1堂课:Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

第2堂课:Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

第3堂课:深入Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

第4堂课:Spark的广播变量与累加器

4.1 广播变量的机制

4.2 广播变量使用最佳实践

4.3 累加器的机制

4.4 累加器使用的最佳实践

第5堂课:Spark多语言编程

5.1 PySpark API

5.2 使用 Python编写Spark程序

5.3 Java 8的函数式编程

5.4 使用Java 8编写Spark程序

5.5 Spark编程语言最佳选择:Scala

5.6 用Scala演绎Spark编程艺术

第6堂课:SparkContext解析和数据加载以及存储

6.1 源码剖析SparkContext

6.2 Scala、Java、Python使用SparkContext

6.4 加载数据成为RDD

6.5 把数据物化


时间


內  容


备注


第二天


第7堂课:深入实战RDD

7.1 DAG

7.2 深入实战各种Scala RDD Function

7.3 Spark Java RDD Function

7.4 RDD的优化问题

第8堂课:Shark的原理和使用

8.1 Shark与Hive

8.2 安装和配置Shark

8.3 使用Shark处理数据

8.4 在Spark程序中使用Shark Queries

8.5 SharkServer

8.6 思考Shark架构

第9堂课:Spark的机器学习

9.1 LinearRegression

9.2 K-Means

9.3 Collaborative Filtering

第10堂课:Spark的图计算GraphX

10.1 Table Operators

10.2 Graph Operators

10.3 GraphX

第11堂课:Spark SQL

11.1 Parquet支持

11.2 DSL

11.3 SQL on RDD


时间


內  容


备注


第三天


第12堂课:Spark实时流处理

12.1 DStream

12.2 transformation

12.3 checkpoint

12.4 性能优化

第13堂课:Spark程序的测试

13.1 编写可测试的Spark程序

13.2 Spark测试框架解析

13.3 Spark测试代码实战

第14堂课:Spark的优化

14.1 Logs

14.2 并发

14.3 内存

14.4 垃圾回收

14.5 序列化

14.6 安全

第15堂课:Spark on Yarn

15.1 Spark on Yarn的架构原理

15.2 Spark on Yarn的最佳实践

第16堂课:JobServer

16.1 JobServer的架构设计

16.2 JobServer提供的接口

16.3 JobServer最佳实践

第17堂课:Spark项目案例实战

17.1 Spark项目的最佳架构模式

17.2 案例的介绍和架构

17.3 案例的源码实现

17.4 调优

时间: 2024-08-04 01:14:21

Spark 1.0.0企业级开发动手:实战世界上第一个Spark 1.0.0课程,涵盖Spark 1.0.0所有的企业级开发技术的相关文章

第82讲:Spark Streaming第一讲:案例动手实战并在电光石火间理解其工作原理

本期内容: 1.Spark Streaming 动手实战演示 2.闪电般理解Spark Streaming原理 3.案例动手实战并在电光石火间理解其工作原理 流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流:既然是数据流处理,就会想到数据的流入.数据的加工.数据的流出. 日常工作.生活中数据来源很多不同的地方.例如:工业时代的汽车制造.监控设备.工业设备会产生很多源数据:信息时代的电商网站.日志服务器.社交网络.金融交易系统.黑客攻击.垃圾邮件.交通监控等:通信时代的手

GREENWORKS.XFROG.V4 for maya6.0 世界上唯一一个可以方便地表现植物生长的软件,这是maya6的版本)

Greenworks Xfrog v4.2.2 for C4D 9.rar 世界上唯一一个可以方便地表现植物生长的软件 Greenworks.Xfrog.v4.3.for.Cinema4D.32bit.rar 用来创建有机类组织结构的3D软件 Greenworks XFrog v3.5.051204 1CD(用于有机体建模及动画的3D软件) Greenworks XFrogTune v1.0.140302 1CD(适用于Cinema 4D的插件.用以制作生物以及其动态效果) GreenWorks

第82课:Spark Streaming第一课:案例动手实战并在电光石火间理解其工作原理

本期内容: 1.Spark Streaming 动手实战演示 2.闪电般理解Spark Streaming原理 案例动手实战并在电光石火间理解其工作原理 流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流:既然是数据流处理,就会想到数据的流入.数据的加工.数据的流出. 日常工作.生活中数据来源很多不同的地方.例如:工业时代的汽车制造.监控设备.工业设备会产生很多源数据:信息时代的电商网站.日志服务器.社交网络.金融交易系统.黑客攻击.垃圾邮件.交通监控等:通信时代的手机.

Cocos2dx 3.0开发环境搭建--Eclipse上构建一个Android项目

一.前言: 本篇主要介绍Cocos2d-x 3.0的一些基础内容,以及在Eclipse上上编译我们的Cocos2d-x项目,成功把Helloworld运行起来了.看完本篇博客之后,你就会知道Cocos2d-x 3.0竟然发生了如此大的变化,变得如此简单,环境搭建.项目创建.编译的方式更加人性化了. 二.环境准备: 1.下载ADT Bundle(Eclipse捆绑了SDK和ADT),或者是Eclipse安装了ADT插件. 2.安装JDK.NDK.Ant .Python,然后配置环境. 3.Coco

IMF传奇行动第82课:Spark Streaming第一课:案例动手实战并在电光石火间理解其工作原理

 流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流:既然是数据流处理,就会想到数据的流入.数据的加工.数据的流出. 日常工作.生活中数据来源很多不同的地方.例如:工业时代的汽车制造.监控设备.工业设备会产生很多源数据:信息时代的电商网站.日志服务器.社交网络.金融交易系统.黑客攻击.垃圾邮件.交通监控等:通信时代的手机.平板.智能设备.物联网等会产生很多实时数据,数据流无处不在. 在大数据时代SparkStreaming能做什么? 平时用户都有网上购物的经历,用户在

Spark Streaming 第一课:案例动手实战并在电光石火间理解其工作原理

http://spark.apache.org/docs/latest/streaming-programming-guide.html 第一个观点:一切都应该是流处理.无处不在. 一定要做流式处理 Flink生不逢时 你选择Storm唯一的理由就是能够做到毫秒级的响应 2016年DT 大数据梦工厂制定版要把spark streaming 的延迟速度控制在100ms以内. 结果就是流处理Spark Streaming一统天下. 因为: 1.他提供的storm API非常容易实现业务的逻辑 2.数

iOS开发范例实战宝典(进阶篇)——互动出版网

这篇是计算机类的优质推荐>>>><iOS开发范例实战宝典(进阶篇)> 以最新的IOS 8为版本编写,内容覆盖了IOS开发的方方面面,通过大量实例提升实战技能,并对书中的重点和难点进行了专门分析. 编辑推荐 *以最新的iOS 8为版本编写,内容覆盖了iOS开发的方方面面* *通过200多个实例提升实战技能,并对书中的重点和难点进行了专门分析 *注重实战:详细讲解了117个iOS开发经典实例,提高实战开发水平 *内容全面:全面介绍了iOS开发中最为常见的14类界面模块 *由

iOS开发范例实战宝典(基础篇)——互动出版网

这篇是计算机类的优质推荐>>>><iOS开发范例实战宝典(基础篇)> 以最新的IOS 8为版本编写,内容覆盖了IOS开发的方方面面,通过大量实例提升实战技能,并对书中的重点和难点进行了专门分析. 编辑推荐 *以最新的iOS 8为版本编写,内容覆盖了iOS开发的方方面面* *通过200多个实例提升实战技能,并对书中的重点和难点进行了专门分析 *注重实战:详细讲解了117个iOS开发经典实例,提高实战开发水平 *内容全面:全面介绍了iOS开发中最为常见的14类界面模块 *由

Zabbix 4.0企业级分布式监控实战

Zabbix 4.0企业级分布式监控实战 已更新至11.2 操作配置-Discovery Eventhttps://www.bilibili.com/video/av47893710/?p=47[图片] 原文地址:https://blog.51cto.com/14172295/2448880