storm与hadoop的对比

   hadoop 是实现了 mapreduce 的思想,将数据切片计算来处理大量的离线数据。

hadoop处理的数据必须是已经存放在 hdfs 上或者类似 hbase 的数据库中,所以

hadoop 实现的时候是通过移动计算到这些存放数据的机器上来提高效率而 storm

不同,storm 是一个流计算框架,处理的数据是实时消息队列中的,所以需要我们

写好一个 topology 逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均

分配到机器资源来获得高效率。

hadoop 的优点是处理数据量大(瓶颈是硬盘和 namenode,网络等),分析

灵活,可以通过实现 dsl,mdx 等拼接 hadoop 命令或者直接使用 hive,pig 等来

灵活分析数据。适应对大量维度进行组合分析缺点就是慢:每次执行前要分发 jar

包,hadoop 每次 map 数据超出阙值后会将数据写入本地文件系统,然后在 reduce

的时候再读进来。

storm 的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以 storm

的速度相比较 hadoop 非常快(瓶颈是内存,cpu)缺点就是不够灵活:必须要先写

好 topology结构来等数据进来分析。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-21 17:31:49

storm与hadoop的对比的相关文章

spark、storm与Hadoop

1. Storm是什么,怎么做,如何做的更好?Storm是一个开源的分布式实时计算系统,它可以简单.可靠地处理大量的数据流.Storm有很多应用场景,如实时分析.在线机器学习.持续计算.分布式RPC.ETL,等等.Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个节点每秒可以处理数以百万计的消息).Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开发应用. 2. Storm与Spark.Hadoop相比是否有优势?Stor

storm与hadoop的对照

   hadoop 是实现了 mapreduce 的思想,将数据切片计算来处理大量的离线数据. hadoop处理的数据必须是已经存放在 hdfs 上或者类似 hbase 的数据库中.所以 hadoop 实现的时候是通过移动计算到这些存放数据的机器上来提高效率而 storm 不同,storm 是一个流计算框架.处理的数据是实时消息队列中的,所以须要我们 写好一个 topology 逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均 分配到机器资源来获得高效率. hadoop 的长处是处理数据

Storm与Hadoop的角色和组件比较

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析.CSDN在此编译.整理. 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机

Storm简介(转载自淘宝,加了点个人理解)

伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样.更加便捷,同时对于信息的时效性要求也越来越高.举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来.点击.购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了.再举一个推荐的例子,如果用户昨天在淘宝上买了一双袜子,今天想买一副泳镜去游泳,但是却发现系统在不遗余力地给他推荐袜子.鞋子,根本对他今天寻找泳镜的行为视而不见,估计这哥们心里就

hadoop知识体系

目录结构知识点还是挺全的,可以按照点学习. 一.Hadoop入门,了解什么是Hadoop 二.分布式文件系统HDFS,是数据库管理员的基础课程 1.Hadoop产生背景 2.Hadoop在大数据.云计算中的位置和关系 3.国内外Hadoop应用案例介绍 4.国内Hadoop的就业情况分析及课程大纲介绍 5.分布式系统概述 6.Hadoop生态圈以及各组成部分的简介 7.Hadoop核心MapReduce例子说明 1.分布式文件系统HDFS简介 2.HDFS的系统组成介绍 3.HDFS的组成部分详

storm学习之入门篇(一)

海量数据处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大.自动容错等优点,在海量数据处理上得到了广泛的使用.但是,hadoop不擅长实时计算,因为它天然就是为批处理而生的,这也是业界一致的共识.否则最近这两年也不会有s4,storm,puma这些实时计算系统如雨后春笋般冒出来.先抛开s4,storm,puma这些系统不谈,我们首先来看一下,如果让我们自己设计一个实时计算系统,我们要解决哪些问题: 1.低延迟.都说了是实时计算系统了,延迟是一定要低的

storm详细介绍

Storm应用场景 Twitter列举了Storm的三大类应用: 1. 信息流处理{Stream processing}Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性. 2. 连续计算{Continuous computation}Storm可进行连续查询并把结果即时反馈给客户端.比如把Twitter上的热门话题发送到浏览器中. 3. 分布式远程程序调用{Distributed RPC} Storm可用来并行处理密集查询.Storm的拓扑结构是一个等待调用信息的分布函数,当它收

storm记录--3--Storm的基本概念

首先我们通过一个 storm 和hadoop的对比来了解storm中的基本概念. Hadoop Storm 系统角色 JobTracker Nimbus TaskTracker Supervisor Child Worker 应用名称 Job Topology 组件接口 Mapper/Reducer Spout/Bolt 接下来我们再来具体看一下这些概念. a.Nimbus:负责资源分配和任务调度. b.Supervisor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进