为什么要使用Spark？

现有的hadoop生态系统中存在的问题

1）使用mapreduce进行批量离线分析；

2）使用hive进行历史数据的分析；

3）使用hbase进行实时数据的查询；

4）使用storm进行实时的流处理；

5）。。。。。。

导致：维护成本高、学习成本高

Spark的出现弥补了Hadoop生态系统中的缺陷，使用spark搞定”一切“

选用spark的原因

1、One stack to rule them all

　　1）应用于流式计算的Spark Streaming

　　2）应用于即席查询（Ad-hoc）的Spark SQL

　　3）应用于机器学习（数据挖掘）的MLlib

　　4）应用于图处理的GraphX

　　5）将R扩展成并行计算的SparkR

　　6）还有权衡精度和速度的查询引擎BlinkDB

2、速度快（运行/开发）

　　运行速度快的原因：

　　1）基于内存计算（从表象来看）

　 2）DAG（从深层次来看）：把执行过程做成一张图，再来优化

开发速度快：scala代码更优雅（但是还得学习scala啦。。。。。。）

Spark和MapReduce对比

1）调度：启动map和reduce任务需要时间

2）数据共享：从HDFS上读取数据执行，每次迭代均要重写将结果写回到HDFS上，后续的迭代如果需要前面运行的结果数据时需要再去HDFS上读取，以此类推，如果迭代N次。。。

3）输出结果数据多副本：数据需要额外的复制、序列化、磁盘/IO的开销

Spark和MapReduce的区别：迭代时数据写入内存，而不是HDFS上，进而减少大量的磁盘IO开销。

为什么要使用Spark？

时间： 2024-10-13 21:34:25

为什么要使用Spark？的相关文章

基于Spark MLlib平台的协同过滤算法---电影推荐系统

基于Spark MLlib平台的协同过滤算法---电影推荐系统又好一阵子没有写文章了,阿弥陀佛...最近项目中要做理财推荐,所以,回过头来回顾一下协同过滤算法在推荐系统中的应用. 说到推荐系统,大家可能立马会想到协同过滤算法.本文基于Spark MLlib平台实现一个向用户推荐电影的简单应用.其中,主要包括三部分内容: 协同过滤算法概述基于模型的协同过滤应用---电影推荐实时推荐架构分析一.协同过滤算法概述本人对算法的研究,目前还不是很深入,这里简单的介绍下其工作原理. 通常,

Spark SQL 之 Join 实现

原文地址:Spark SQL 之 Join 实现 Spark SQL 之 Join 实现涂小刚 2017-07-19 217标签: spark , 数据库 Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的. SparkSQL总体流程介绍在阐述Join实现之前,我们首先简单介绍SparkSQL

spark性能调优之资源调优

转https://tech.meituan.com/spark-tuning-basic.html spark作业原理使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程.根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动.Driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core.而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Stand

Spark 整合hive 实现数据的读取输出

实验环境: linux centOS 6.7 vmware虚拟机 spark-1.5.1-bin-hadoop-2.1.0 apache-hive-1.2.1 eclipse 或IntelJIDea 本次使用eclipse. 代码: import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.DataFrame; import o

spark 教程三 spark Map filter flatMap union distinct intersection操作

RDD的创建 spark 所有的操作都围绕着弹性分布式数据集(RDD)进行,这是一个有容错机制的并可以被并行操作的元素集合,具有只读.分区.容错.高效.无需物化.可以缓存.RDD依赖等特征 RDD的创建基础RDD 1.并行集合(Parallelized Collections):接收一个已经存在的Scala集合,然后进行各种并行运算 var sc=new SparkContext(conf) var rdd=sc.parallelize(Array(2,4,9,3,5,7,8,1,6)); rd

Spark运行命令示例

local单机模式:结果xshell可见:./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[1] ./lib/spark-examples-1.3.1-hadoop2.4.0.jar 100 standalone集群模式:需要的配置项1, slaves文件2, spark-env.shexport JAVA_HOME=/usr/soft/jdk1.7.0_71export SPARK_MASTE

Spark Job具体的物理执行

即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式: 1.f(record),f作用于集合的每一条记录,每次只作用于一条记录 2.f(records),f一次性作用于集合的全部数据: Spark采用的是第一种方式,因为: 1.无需等待,可以最大化的使用集群的计算资源 2.减少OOM的产生 3.最大化的有利于并发 4.可以精准的控制每一个Partition本身(Dependency)及其内部的计算(compute) 5.基于lineage的算子流动式函数式计算,可

Dataflow编程模型和spark streaming结合

Dataflow编程模型和spark streaming结合主要介绍一下Dataflow编程模型的基本思想,后面再简单比较一下Spark streaming的编程模型 == 是什么 == 为用户提供以流式或批量模式处理海量数据的能力,该服务的编程接口模型(或者说计算框架)也就是下面要讨论的dataflow model 流式计算框架处理框架很多,也有大量的模型/框架号称能较好的处理流式和批量计算场景,比如Lambda模型,比如Spark等等,那么dataflow模型有什么特别的呢? 这就要要从

Spark性能优化指南——高级篇

Spark性能优化指南--高级篇 [TOC] 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为<Spark性能优化指南>的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题. 数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题--数据倾斜,此时Spark作业的性能会比期望差很多.数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能. 数据倾斜发生时的现象绝大多数tas

【Spark深入学习 -14】Spark应用经验与程序调优

----本节内容------- 1.遗留问题解答 2.Spark调优初体验 2.1 利用WebUI分析程序瓶颈 2.2 设置合适的资源 2.3 调整任务的并发度 2.4 修改存储格式 3.Spark调优经验 3.1 Spark原理及调优工具 3.2 运行环境优化 3.2.1 防止不必要的分发 3.2.2 提高数据本地性 3.2.3 存储格式选择 3.2.4 选择高配机器 3.3 优化操作符 3.3.1 过滤操作导致多小任务 3.3.2 降低单条记录开销 3.3.3 处理数据倾斜或者任务倾斜 3.

猜你喜欢

tomcat原理解析(二)：整体架构

一整体结构前面tomcat实现原理(一)里面描述了整个tomcat接受一个http请求的简单处理,这里面我们讲下整个tomcat的架构,以便对整体结构有宏观的了解.tomat里面由很多个容器结合在 ...

第二周作业（产品同质化问题）

产品同质化的问题是现在大部分创新性企业不得不面对一个问题.在开发一个产品之初,就要对自身的产品的定位做好足够明确的需求分析,把自己的产品初期的用户群体确定好.这一点在中小型企业中显得尤为重要,而大型企 ...

Oracle11g - dos 命令 sqlplus/nolog 提示不是内部命令解决办法

继安装Oracle 11g后,解锁SCOtt时发现 dos 命令 sqlplus/nolog 提示不是内部命令解决办法通过实际验证现整理有效方法步骤如下: 步骤一:开始>>找到Or ...

StarUML2 建模工具全平台破解及license验证简要分析

http://staruml.io/download 破解方法:找到安装目录下的文件:LicenseManagerDomain.js阅读得知,改软件用rsa加密用户信息,换行为用户信息的分隔符修改以下 ...

【noi 2.5_8465】马走日（dfs）

最基本的dfs.这代码理应超时的,我也不知为何AC了...... 1 #include<cstdio> 2 #include<cstdlib> 3 #include<cs ...

2015第23周三

打算近端时间学习下前端开发框架,作为个人能力提升和学习力训练的方法: 摘录http://www.infoq.com/cn/news/2012/05/js-mvc-framework/里MVC框架的比较 ...

BZOJ1828 [Usaco2010 Mar]balloc 农场分配

直接贪心,我们把线段按照右端点从小到大排序,然后一个个尝试插入即可... 来证明贪心的正确性: 不妨设贪心得到的答案集合为$S$,最优解的答案集合为$T$ 若$S$不是最优解,那么$S \not= T ...

struts零配置的简单实现(五)

@results:用于指定响应某个操作的页面对于页面的指定有两种方式:全局.局部 @Results({ @Result(name="fail", location="f ...

使用file做swap分区

有时候在给系统盘分区时,忘记swap分区,这种情况下,可以用一个文件做swap,效果差不多的. 这里就以2Gswap分区为例. 步骤: 1.创建2G大小的文件 dd if=/dev/zero of=/ ...

JavaScript prototype 详解（对prototype 使用的一些讲解）

对JavaScript有一定了解的你,对jquery不陌生吧,那你看jQuery源代码的时候对prototype 也一定有见过,如果对prototype有疑问或者想更深入的去了解与使用它,欢迎你继续往 ...

python学习（day2）

1.常用数据类型 name = "jack"#字符串 string age = 24#整型int height =1.75#浮点型float print(type(name),ty ...

Scala中隐式转换初体验实战详解以及隐式转换在Spark中的应用源码解析之Scala学习笔记-49

package com.leegh.implicits import scala.io.Sourceimport java.io.File /** * @author Guohui Li */ cla ...

.NET下Excel报表的打印

说明:这是一个实验的小例子,在实际项目中使用时,一般Object[,] 对象的数据来源于数据库. 1. 实验环境开发平台:Visual Studio 2010 测试模板:JBtest Excel:O ...

PHP XML To Array将XML转换为数组

1 // Xml 转数组, 包括根键,忽略空元素和属性,尚有重大错误 2 function xml_to_array( $xml ) 3 { 4 $reg = "/<(\\w+)[^ ...

git基础知识

本文没啥难度,基本上是我照着廖雪峰的博客敲的代码,权当做篇学习笔记. git基础知识 git diff example.txt git add example.txt git commit -m 'a ...

如何实现网页文本原格式显示

如何实现网页文本原格式显示:有时候我们需要网页中的文本能够实现简单的原格式显示,比如空格和换行等等,但是浏览器在解析的时候并不能够实现我们的要求,下面即是一段结合<pre>标签实现此功能的 ...

闹钟--alarmManager

1.AlarmManager,顾名思义,就是“提醒”,是Android中常用的一种系统级别的提示服务,在特定的时刻为我们广播一个指定的Intent.简单的说就是我们设定一个时间,然后在该时间到来时 ...

Linux学习篇之服务管理

服务的分类: Linux服务:rpm包默认安装的服务.源码包安装的服务查看服务的自启动状态: chkconfig --list #查看服务的自启动(只能看到rpm包安装的服务) 源码包安装在指定 ...

Java_观察者模式（Observable和Observer） -转

原文地址: Java_观察者模式(Observable和Observer) 一.观察者模式介绍在Java中通过Observable类和Observer接口实现了观察者模式.一个Observer ...

dedecms 5.7 网站搬家后产生的问题记录

1.已经安装好了dedecms了,访问index.php首页依然提示:如果你确定要重新安装,请先从FTP中删除 install/install_lock.txt! 那你如果你改过data位置的话,马上 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.