spark VS mapreduce

Apache Spark，一个内存数据处理的框架，现在是一个顶级Apache项目。这是Spark迈向稳定的重要一步，因为它越来越多地在下一代大数据应用中取代MapReduce。

MapReduce是有趣并且非常有用的，但现在看来Spark开始从它手中接过缰绳，成为新的Hadoop工作负载的主要处理框架。该技术在上周四迈出了十分具有意义的一步：Apache软件基金会宣布Spark现在是一个顶级项目。

因为它比MapReduce的速度更快、更容易编程，Spark已经囊括大量的用户和代码贡献者。这意味着它非常适合用于下一代大数据的应用程序，它们可能需要更低的延迟查询，实时处理或在相同的数据上的迭代计算（即，机器学习）。 Spark的创立者来自加州大学伯克利分校，并且已经创建了一家名为Databricks的公司进行商业化运作。

Spark 从技术上讲是一个独立的项目，但它总是设计用来与Hadoop分布式文件系统一起工作。它可以直接在HDFS上运行，以及通过YARN，它可以和同一群集上的MapReduce作业一起运行。事实上，Hadoop的先驱Cloudera公司现在为Spark客户提供企业级支持。

时间： 2024-12-29 07:28:46

spark VS mapreduce的相关文章

Spark 颠覆 MapReduce 保持的排序记录

在过去几年,Apache Spark的采用以惊人的速度增加着,通常被作为MapReduce后继,可以支撑数千节点规模的集群部署.在内存中数据处理上,Apache Spark比MapReduce更加高效已经得到广泛认识:但是当数据量远超内存容量时,我们也听到了一些机构在Spark使用上的困扰.因此,我们与Spark社区一起,投入了大量的精力做Spark稳定性.扩展性.性能等方面的提升.既然Spark在GB或TB级别数据上运行良好,那么它在PB级数据上也应当同样如此. 为了评估这些工作,最近我

Alluxio增强Spark和MapReduce存储能力

Alluxio的前身为Tachyon.Alluxio是一个基于内存的分布式文件系统:Alluxio以内存为中心设计,他处在诸如Amazon S3. Apache HDFS 或 OpenStack Swift存储系统和计算框架应用Apache Spark 或Hadoop MapReduce中间,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件. 对上层应用来讲,Alluxio是一个管理数据访问和快速存储的中间层,对底层存储而言,Alluxio消除了大数据业务和存储系统依赖和鸿沟,

Spark 与 MapReduce的区别

学习参考自 http://spark-internals.books.yourtion.com/markdown/4-shuffleDetails.html 1. Shuffle read 边 fetch 边处理还是一次性 fetch 完再处理? 边 fetch 边处理. MapReduce shuffle 阶段就是边 fetch 边使用 combine() 进行处理,只是 combine() 处理的是部分数据.MapReduce 为了让进入 reduce() 的 records 有序,必须等

不同的瑞士军刀：对比 Spark 和 MapReduce

本文由伯乐在线 - 古月水语翻译,顾星竹校稿.未经许可,禁止转载! 来源:http://blog.jobbole.com/97150/ Apache 基金会下的 Spark 再次引爆了大数据的话题.带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结. 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 MapR

spark与mapreduce的区别

spark是通过借鉴Hadoop mapreduce发展而来,继承了其分布式并行计算的优点,并改进了mapreduce明显的缺陷,具体表现在以下几方面: 1.spark把中间计算结果存放在内存中,减少迭代过程中的数据落地,能够实现数据高效共享,迭代运算效率高.mapreduce中的计算中间结果是保存在磁盘上的,这样必然影响整体运行速度. 2.spark容错性高.spark支持DAG图的分布式并行计算(简单介绍以下spark DAG:即有向无环图,描述了任务间的先后依赖关系,spark中rdd

MapReduce程序转换为Spark程序

MapReduce和Spark比较目前的大数据处理可以分为以下三个类型: 1.复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间: 2.基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间: 3.基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间. 大数据处理势必需要依赖集群环境,而集群环境有三大挑战,分别是并行化.单点失败处理.资源

MapReduce和spark的shuffle过程详解

面试常见问题,必备答案. 参考:https://blog.csdn.net/u010697988/article/details/70173104 mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实效性,下面主要介绍mapReducehe和Spark两者的shuffle过程. MapReduce的Shuffle过程 MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发:Reduce是规约,负责数据的计算归并.Reduce的数据来源于

从Hadoop MapReduce到Spark

回顾MapReduce的计算过程 Spark对比MapReduce Spark是借鉴了MapReduce的思想并在其基础上发展起来的,继承了其分布式计算的优点并改进其缺陷,但两者也有不少的差异如下: 1.spark更快,spark把运行的之间数据存放在内存,迭代计算效率高:mapreduce的之间结果需要落地,保存到磁盘,会产生大量IO操作,影响性能. 2.spark容错性高,通过弹性分布式数据集RDD来实现高效容错,某一部分丢失或出错,可通过计算流程的血缘关系来重建:而mapreduce只能重

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化

https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程. MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随

猜你喜欢

肯定感觉舒服的忍一忍

http://www.acfun.tv/a/aa3882426 http://www.acfun.tv/a/aa3882671 http://www.acfun.tv/a/aa3882819 h ...

UVALive 6906 A - Cluster Analysis

思路:排个序,依次选就好了. #include <bits/stdc++.h> #define PB push_back #define MP make_pair using namesp ...

jquery------导入jquery.2.2.3.min.js

在WebRoot下的新建文件夹里面添加的jsp文件,例如WebRoot/jquery/other.jsp 在We ...

CentOS7-ntp时间同步服务器

NTP时钟同步方式说明 NTP在linux下有两种时钟同步方式,分别为直接同步和平滑同步: 直接同步使用ntpdate命令进行同步,直接进行时间变更.如果服务器上存在一个12点运行的任务,当前服务器 ...

一.pyc文件 1.前提编写auth.py模块,新建test.py文件引用auth.py文件--运行test.py文件之后会生成auth.pyc文件不同版本的区别 python2:生成的__pyc ...

Mac Os系统设置

显示Mac隐藏文件的命令: defaults write com.apple.finder AppleShowAllFiles -bool true 隐藏Mac隐藏文件的命令:defaults wri ...

KTV后台的重要性

之前就是说过“一个项目有很多重要的步骤以及功能”,那我们现在就来看看对于KTV项目来说:后台是处于什么样的重要作用! 首先就得了解KTV后台的一些功能了: 1.歌曲管理 .歌手管理 .设置资源路径 2 ...

python的初体验

最近由于毕业答辩,导致一些博客没有更新,见谅,今天我们开始一些新的内容 1.python的注释单行注释:# 多行注释: ''' 这是多行注释我们可以在里面写很多很多的行 ''' 2.编码风格 #c ...

多线程随笔二（Task）

Task类是.net 4.0新加进来的特性,对原有的Thread,ThreadPool做了进一步的封装,使得.net平台上的多线程编程变得更加方便.废话不多说,进入正题. 一. Task启动 Task ...

数据结构——线性表——链表反转

链表反转有两种常见方式.下面从图中详细解释.其中带有部分核心代码,最后上完整代码. 迭代法 //首先定义三个变量 PNODE pre = NULL; PNODE now = pHead-& ...

FZU 2088 最长队名

Problem 2088 最长队名 Problem Description Jack所在的班级决定组团报名参加FZU校赛.为了体现班级的团结和睦,班长决定用班级所有人的名字连起来组成一个史上最长最醒 ...

FTL 语法

判断对象是否存在,若成立说明存在 <#if blockObjList ??></#if> <#if blockObjList ??> <#else> ...

ubuntu "mkdir -p"命令

mkdir的-p选项允许你一次性创建多层次的目录,而不是一次只创建单独的目录.例如,我们要在当前目录创建目录Projects/a/src,使用命令: mkdir -p Project/a/src 而不 ...

杭电oj 1069 Monkey and Banana

Monkey and Banana Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)To ...

SQL Server中TEXT类型字段值在数据库中追加字符串方法

在数据上我们往往会遇到ntext大文本类型,这种类型如果和 nvarchar类型相加会出现问题,所以有一中方法可以解决这种问题. 使用的sql 函数: TEXTPTR:返回要更新的 text.nt ...

Androidproject文件下assets目录与res目录的差别

1. assets : 不会在R.java文件下生成对应的标记,assets目录能够自己创建目录,必须使用AssetsManager类进行訪问,存放到这里的资源在执行打包的时候都会打入程序安装包中, ...

javascript重定向页面并用post方法传递消息

javascript中重定向页面得方法很多,同时能传递消息的也不少:但可用post方法传递的我只找到两种: 第一种方法:用document.write在 JavaScript函数中,用document ...

WebService学习之旅（六）使用Apache Axis2实现WebService客户端调用

上节介绍了如何使用Axis2 发布一个WebService,Axis2除了为我们编写WebService应用带来了便利,也同样简化的客户端调用的过程,本节在上节的基础上使用Axis2自带的工具生成客户 ...

腾讯实习笔试感悟

腾讯是我参加的第一场实习生笔试,考前并没有做太多准备,只是做了下往年的一套试题. 真正做题的时候,我被虐的挺惨.其实,笔试题并不算很难,是很基础的课程题目,但很多知识都是只有印象,并没有深刻的印象,6 ...

ubuntu获得root用户权限,使用xshell连接！

一.获取root用户权限打开linux终端命令,输入 sudo passwd root Enter new UNIX password: (在这输入你的密码) Retype new UNIX pas ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.023 s.