Spark Srreaming与Storm的区别

Storm风暴和Spark Streaming都是分布式流处理的开源框架。区别如下：

1、处理延时和吞吐量

Storm处理的是每次传入的一个事件，Spark Streaming是处理某个时间段窗口内的事件流，Storm处理一个事件可以达到秒内的延迟，而Spark Streaming则有几秒钟的延迟。因此，Spark Streaming比Storm的延时更长，但是吞吐量比Storm大。

2、容错、数据保证

Spark Streaming在容错方面提供了对状态计算的更好的支持。在Storm中，任一条单独的记录在经过系统时必须可以被追踪到，所以Storm仅保证所有记录都会至少处理一次，但是从错误中恢复过来时允许出现重复记录。这意味着可变状态有可能被错误的更新两次。

3、支持的API

Storm（由Closure语言开发的）支持JAVA编程，Spark支持Scala编程，也支持java开发。

总结：,如果你需要秒内的延迟，Storm是一个不错的选择，而且没有数据丢失。如果你需要有状态的计算，而且要完全保证每个事件只被处理一次，Spark Streaming则更好。Spark Streaming编程逻辑也可能更容易，因为它类似于批处理程序(Hadoop)，特别是在你使用批次(尽管是很小的)时。

另参阅：

http://www.uml.org.cn/sjjm/201408282.asp

时间： 2024-08-10 15:11:32

Spark Srreaming与Storm的区别的相关文章

spark和hive storm mapreduce的比较

Spark Streaming与Storm都可以用于进行实时流计算.但是他们两者的区别是非常大的.其中区别之一就是,Spank Streaming和Stom的计算模型完全不一样,Spark Streaming是基于RDD的,因此需要将一小段时间内的,比如1秒内的数据,收集起来,作为一个RDD.然后再针对这个batch的数据进行处理.而Storm却可以做到每来一条数据, 都可以立即进行处理和计算. 因此,Spark Streaming实际上严格意义上来说,只能称作准实时的流计算框架,而Storm是

hadoop和storm的区别

快,指时延 storm:网络直传,基于内存,流式处理,省去了批量处理收集数据的时间和作业调度时延,用于实时 hadoop:hdfs传输,磁盘作为中间交换的介质,基于任务调度吞吐:单位时间内处理的数据量当数据量很大时,比的是吞吐,那hadoop会比storm快 hadoop和storm的区别

spark streaming 与 storm的对比

feature strom (trident) spark streaming 说明并行框架基于DAG的任务并行计算引擎(task parallel continuous computational engine Using DAG) 基于spark的数据并行计算引擎(data parallel general purpose batch processing engine) 数据处理模式 (one at a time)一次处理一个事件(消息)trident: (Micro-batch

Hadoop与 Spark中的Shuffle之区别与联系

Hadoop与 Spark中的Shuffle之区别与联系 2018年08月22日 20:24:46 小爷欣欣阅读数:175 转自:http://mini.eastday.com/mobile/180114141035935.html mapreduce过程解析(mapreduce采用的是sort-based shuffle),将获取到的数据分片partition进行解析,获得k/v对,之后交由map()进行处理.map函数处理完成之后,进入collect阶段,对处理后的k/v对进行收集,存储在

Spark Streaming与Storm

Spark Streaming处于Spark生态技术栈中,可以和Spark Core和Spark SQL无缝整合:而Storm相对来说比较单一: (一)概述 Spark Streaming Spark Streaming是Spark的核心API的一个扩展,可以实现高吞吐量.具有容错机制的实时流数据的处理.支持从多种数据源获取数据,包括kafka.Flume.Twitter.ZeroMQ以及TCP等,从数据获取之后,可以使用诸如map.reduce.join.window等高级函数进行复杂算法处理

spark中map与mapPartitions区别

在spark中,map与mapPartitions两个函数都是比较常用,这里使用代码来解释一下两者区别 import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable.ArrayBuffer object MapAndPartitions { def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkCon

Hadoop中的Shuffle 与 Spark中的Shuffle得区别与联系

MapReduce过程.Spark和Hadoop以Shuffle为中心的对比分析 mapreduce与Spark的map-Shuffle-reduce过程 mapreduce过程解析(mapreduce采用的是sort-based shuffle) 将获取到的数据分片partition进行解析,获得k/v对,之后交由map()进行处理. map函数处理完成之后,进入collect阶段,对处理后的k/v对进行收集,存储在内存的环形缓冲区中. 当环形缓冲区中的数据达到阀值之后(也可能一直没有达到阀值

MR的shuffle和Spark的shuffle之间的区别

mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的时候会把文件益写到磁盘,溢出的各种小文件会合并成一个大文件,这个合并的过程中会进行排序,这个排序叫做归并排序 map阶段会涉及到 1.sort排序(默认按字典排序) 2.合并(c

Spark streaming和Storm比较，一图胜千言

猜你喜欢

13.Android插件化入门指南

转载:http://lruheng.com/2017/07/01/Android%E6%8F%92%E4%BB%B6%E5%8C%96%E5%85%A5%E9%97%A8%E6%8C%87%E5%8D ...

How to check all timestamps of a file

A friend of mine she asked me how to check all timestamps of a file on an NTFS volume. She did not h ...

final修饰的类，其属性和方法默认是被final修饰的吗？

在论坛上,看到一个问题,当然,各位聪明的客官想必已经知道问题是什么了,嘿嘿,没错就是文章的标题:final修饰的类,其属性和方法默认是被final修饰的吗? 老实说,刚开始看到这个问题的时候,有点懵. ...

web前端培训机构哪家好？

AAA教育课程设计引进北美先进技术,贴近中国软件企业的实际需求,同时,聘请北美海外专家与来自IBM.华为.用友.亚信.东软等国内外名企的一线实战专家担任讲师,以确保高端培训效果.AAA教育在课程设计与 ...

MySQL之查询优化方式（笔记）

1.COUNT() 对COUNT的优化可以通过下面的SQL实现 mysql> select count(gnp<10000 or null) as '<<<<',c ...

[题意分析] 给你一个可重复数集,要求从中选取一个关于异或空间线性无关的子集,使子集的权值和最大. [解题思路] 定义:一个有序对(S,I)称为拟阵当且仅当该有序对满足以下性质: 1.有穷性:S是一个 ...

精简android4.2

cd /system/apprm YouTube.*rm Settings.*rm VoiceDialer.*rm Phone.*rm QuickSearchBox.*rm RSSReader.*rm ...

IP数据报的格式

1.IP数据报的格式 2. (1)版本占4位,指IP协议的版本.通信双方使用的IP协议版本必须一致.日前广泛使用的 IP协议版本号为 4 (即 IPv4).IPv6 目前还处于起步阶段. (2)首部 ...

删除指定目录下的空文件夹

//删除制定目录下的所有空文件夹 //num=0 第一次遍历该文件夹 num=1 第二次遍历该文件夹 public static void ListDirectory(File file,int nu ...

今日学习总结9.18

我想说个控制语句,continue与break continue(结束本次循环语句),停止当前的本次循环,但是还继续下一个循环 break(终止执行循环语句),跳出循环! printf("% ...

刚好热天涯房管局法国对方感到反感

http://bar.cnyes.com/html/100102-1/8D2606470047E40.shtml http://bar.cnyes.com/html/100102-1/8D260647 ...

数据库中的自定义表值函数

看到别人写的函数,一开始看不懂,于是在网上找资料,原来是表值函数,感觉又学到了,满满的充实感,摘录如下: 表值函数表值函数和标量值函数的不同是表值函数是返回一个Table类型 Table类型相当 ...

【云快讯】《微软Sharepoint 2016 Beta版发布，强化混合云搜索功能》

2015-08-26 张晓东东方云洞察点击上面的链接文字,可以快速关注"东方云洞察"公众号 SharePoint Server 2016是微软的团队协作软件产品的最新版本,刚刚 ...

BZOJ 3907: 网格【组合数学】

Description 某城市的街道呈网格状,左下角坐标为A(0, 0),右上角坐标为B(n, m),其中n >= m.现在从A(0, 0)点出发,只能沿着街道向正右方或者正上方行走,且不能经过 ...

scanf，printf函数的返回值

参考自:https://www.douban.com/note/220299804/ scanf函数的返回值有三种情况: (1)第一种就是返回一个正整数,表示输入成功元素的个数. (2)第二种如果返回 ...

回溯求解0-1背包

回溯法本质上是一种深度优先搜索状态空间树的算法. 假设不引入剪枝函数(约束函数+限界函数).则是穷举算法. 引入适当的限界函数,剪去已能确信不含最优答案结点的子树,使其成为一种启示式算法. 显示约束: ...

frame框架中验证码图片抓取（VB2010）

今日写一个验证码识别自动登录的程序,发现网页中验证码图片是嵌在frame框架中,一时间遇到了问题无法搞定,网上搜了很多网页也没有具体的解决办法,今日偶然尝试居然搞定了,给大家分享一下. HTML的源程 ...

Django的Apache conf配置

安装 apache2 和 mod_wsgi sudo apt-get install apache2 # Python 2 sudo apt-get install libapache2-mod-ws ...

ioS开发知识（二十七）

此实现不是 Windows 平台 FIPS 验证的加密算法的一部分

今天有同事报软件出错日志记录: 此实现不是 Windows 平台 FIPS 验证的加密算法的一部分. mscorlib, 在 System.Security.Cryptography.MD5Crypt ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.