《OD学spark》20160925 Spark Core

一、引言

Spark内存计算框架

中国Spark技术峰会

十二场演讲

大数据改变世界，Spark改变大数据

大数据：

以Hadoop 2.x为主的生态系统框架（MapReduce并行计算框架）

存储数据、处理数据

分布式

Spark：

类似于MapReduce的另外一种分布式计算框架

核心：

数据结构：RDD，集合List[T]

MapReduce

最大的痛点：

IO性能瓶颈，也是所有分布式计算框架的痛点

（1）磁盘IO，

input(disk) -> map -> DISK(local)->reduce->output(DISK)

（2）网络IO，

shuffle

2015年Spark Submit

阿里巴巴和databricks

全球，每天使用Spark处理数据最大的公司

数据量： 1PB = 1024TB

腾讯：集群规模 8000台

Spark：内存计算框架

为什么要将中间结果存储到磁盘中呢？要进行写呢？我放入内存不行吗？

input(disk) -> flatMap -> memory->map->memory->groupByKey->memory->map->output(DISK)

分析：

（1）将中间处理的数据，存储在内存中

（2）提供很多的Operation，上百种

list.map(_ * 2).filter(_ % 5 == 1).map(_ + 100)

对于迭代计算、机器学习

Scala->Java->JVM

作业：

假期期间，MapReduce Shuffle过程，好好再理解

Spark处理分析数据：

（1）读取输入数据

Core： Rdd

SQL: DataFrame

Streaming：DStream

（2）process data

Core： rdd#xxx

SQL: df#xxx

Streaming：dstream#xxx

里面的方法基本上95%以上都是高阶函数，依据你自己的需求，定义操作

（3）ouputdata

resultRdd.saveAsTextFile("")

resultDF.write.jdbc.(url, tableName, props)

resultDStream.foreach(Redis\HBase\RDBMS)

时间： 2024-10-11 10:27:08

《OD学spark》20160925 Spark Core的相关文章

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD.DataFrame 与 DataSet0.3.2 DataSet 与 RDD 互操作0.3.3 RDD.DataFrame 与 DataSet 之间的转换0.3.4 用户自定义聚合函数(UDAF)0.3.5 开窗函数0.4 Spark Streaming0.4.1 Dst

【转】科普Spark，Spark是什么，如何使用Spark

本博文是转自如下链接,为了方便自己查阅学习和他人交流.感谢原博主的提供! http://www.aboutyun.com/thread-6849-1-1.html http://www.aboutyun.com/thread-6850-1-1.html 科普Spark,Spark核心是什么,如何使用Spark(1) 阅读本文章可以带着下面问题: 1.Spark基于什么算法的分布式计算(很简单) 2.Spark与MapReduce不同在什么地方 3.Spark为什么比Hadoop灵活 4.Spar

Spark记录-Spark性能优化解决方案

Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism.通常,reduce数目设置为core数目的2到3倍.数量太大,造成很多小任务,增加启动任务的开销:数目太少,任务运行缓慢. 问题2:shuffle磁盘IO时间长解决方式:设置spark.local.dir为多个磁盘,并设置磁盘为IO速度快的磁盘,通过增加IO来优化shuffle性能: 问题3:map|red

Spark 以及 spark streaming 核心原理及实践

导语 spark 已经成为广告.报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家. 本文依次从spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环境搭建等方面进行介绍,希望对大家有所帮助. spark 生态及运行原理 Spark 特点运行速度快 => Spark拥有DA

《OD学spark》20160924scala基础

拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分: 第一部分:基础篇 SCALA:1天 SparkCore:2天 - MapReduce SparkSQL:1天 - Hive Shark = Hive on Spark 关键,企业中必用的,必须掌握

《OD学Spark》20161022

一.Spark Streaming 1. 什么是Spark Shuffle Wide Dependencies *ByKey: groupByKey,reduceByKey 关联操作:join,cogroup 窄依赖: 父RDD的每个分区的数据,仅仅只会给子RDD的一个分区. Spark性能优化: 开发优化: 依据业务场景及数据,使用较好的RDD的方法 (1)能使用reduceByKey不要使用groupByKey (2)适当的时候已经处理的数据RDD,进行重新分区 repartition re

Spark 学习: spark 原理简述与 shuffle 过程介绍

Spark学习: 简述总结 Spark 是使用 scala 实现的基于内存计算的大数据开源集群计算环境.提供了 java,scala, python,R 等语言的调用接口. Spark学习简述总结引言 1 Hadoop 和 Spark 的关系 Spark 系统架构 1 spark 运行原理 RDD 初识 shuffle 和 stage 性能优化 1 缓存机制和 cache 的意义 2 shuffle 的优化 3 资源参数调优 4 小结本地搭建 Spark 开发环境 1 Spark-Scal

【转载】Spark学习——spark中的几个概念的理解及参数配置

首先是一张Spark的部署图: 节点类型有: 1. master 节点: 常驻master进程,负责管理全部worker节点.2. worker 节点: 常驻worker进程,负责管理executor 并与master节点通信.dirvier:官方解释为: The process running the main() function of the application and creating the SparkContext.即理解为用户自己编写的应用程序一.Application ap

Spark记录-Spark性能优化（开发、资源、数据、shuffle）

开发调优篇原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD:接着对这个RDD执行某个算子操作,然后得到下一个RDD:以此类推,循环往复,直到计算出最终我们需要的结果.在这个过程中,多个RDD会通过不同的算子操作(比如map.reduce等)串起来,这个"RDD串",就是RDD lineage,也就是"RDD的血缘关系链". 我们在开发过程中要注意:对于同一份数据,只应该