大数据处理系统都有哪些?(批处理系统与迭代计算系统)

我们在前面的文章中给大家介绍了数据查询分析计算系统,数据查询分析计算系统是一个比较常见的系统,其实除了这一个数据查询分析计算系统还有很多系。我们在这篇文章中给大家介绍一下批处理系统和迭代计算系统,希望这篇文章能够给大家带来帮助。

我们首先说说批处理系统。批处理系统中的MapReduce是被广泛使用的批处理计算模式。MapReduce对具有简单数据关系、易于划分的大数据采用“分而治之”的并行处理思想,将数据记录的处理分为Map和Reduce两个简单的抽象操作,提供了一个统一的并行计算框架。批处理系统将复杂的并行计算的实现进行封装,大大降低开发人员的并行程序设计难度。而Hadoop和Spark是典型的批处理系统。MapReduce的批处理模式不支持迭代计算。

说到这里我们给大家介绍一下Hadoop和spark吧,Hadoop是目前大数据处理最主流的平台,是Apache基金会的开源软件项目,使用Java语言开发实现。同时Hadoop平台使开发人员无需了解底层的分布式细节,即可开发出分布式程序,在集群中对大数据进行存储、分析。而Spark是由加州伯克利大学AMP实验室开发,适合用于机器学习、数据挖掘等迭代运算较多的计算任务。Spark引入了内存计算的概念,运行Spark时服务器可以将中间数据存储在RAM内存中,大大加速数据分析结果的返回速度,可用于需要互动分析的场景。Hadoop和spark给别人带来不错的内容。

然后给大家说一说迭代计算系统。这是由于针对MapReduce不支持迭代计算的缺陷,人们对Hadoop的MapReduce进行了大量改进,Haloop、iMapReduce、Twister、Spark是典型的迭代计算系统。而Haloop是Hadoop MapReduce框架的修改版本,用于支持迭代、递归类型的数据分析任务,如PageRank、K-means等。iMapReduce是一种基于MapReduce 的迭代模型,实现了MapReduce 的异步迭代。Twister是基于Java的迭代MapReduce模型,上一轮Reduce的结果会直接传送到下一轮的Map。Spark是基于内存计算的开源集群计算框架。这些都是需要大家掌握的。

以上的内容就是小编为大家介绍的批处理系统以及迭代计算系统的相关内容了,想必大家看了这篇文章以后可能有一点帮助,大家在进行大数据工作的时候还是需要深入了解这些方法的,这样会令我们的工作事半功倍。

原文地址:https://www.cnblogs.com/CDA-JG/p/10219136.html

时间: 2024-08-26 16:51:52

大数据处理系统都有哪些?(批处理系统与迭代计算系统)的相关文章

大数据处理系统都有哪些?(流式计算系统)

我们在上一篇文章中给大家介绍了批处理系统以及迭代计算系统.这两种方法都是比较抽象的,我们在这篇文章中给大家介绍一种Facebook经常使用的流式计算系统,希望这篇文章能够给大家带来帮助. 流式计算系统就是因为流式计算具有很强的实时性,需要对应用源源不断产生的数据实时进行处理,使数据不积压.不丢失,常用于处理电信.电力等行业应用以及互联网行业的访问日志等.在Facebook 的 Scribe. Apache的 Flume. Twitter的 Storm. Yahoo的S4.UCBerkeley的S

开源大数据处理系统/工具大全

本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的J

企业如何快速搭建大数据处理系统

随着互联网+时代的来临,互联网已经从InformationTechnology (IT)时代过度到Data Technology (DT)时代,数据量也以几何量级递增,数据整体呈现出5V特征,大体量(Volume).多样性(Variety).时效性(Velocity).准确性(Veracity),大价值(Value).大体量体现为数据量可以从TB到PB,甚至到EB规模,google资料显示,其每天搜索提供的数量达到30PB(1P=1024TB), 这些数据如果打印出来将超过5千万亿张A4纸,但是

大数据处理——Hadoop解析(一)

概述 这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘.分析.因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正在发生了改变.例如,基于大数据分析可以做疾病预测控制:基于大数据分析可以做交通流量预测控制:基于大数据分析可以做大型系统故障诊断预测:基于大数据分析可以做客户消费推荐.可以说,大数据时代可以解决很多以前非常难以解决的问题.可以这样讲,在这样一个时代,大数据可以让我们的生活变得更加美好. 突如其来的大

大快DKhadoop大数据处理平台详解

大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可以说是大数据的一个分水岭.随着互联网技术的快速发展,大数据也随之迎来它的发展高峰期.整个大数据处理技术的核心基础hadoop.mapreduce.nosql系统,而这三个系统是建立在谷歌提出的大表.分布式文件系统和分布式计算的三大技术构架上,以此来解决海量数据处理的问题.虽然说大数据处理技术最早兴起

hadoop大数据处理平台与案例

大数据可以说是从搜索引擎诞生之处就有了,我们熟悉的搜索引擎,如百度搜索引擎.360搜索引擎等可以说是大数据技处理技术的最早的也是比较基础的一种应用.大概在2015年大数据都还不是非常火爆,2015年可以说是大数据的一个分水岭.随着互联网技术的快速发展,大数据也随之迎来它的发展高峰期. 整个大数据处理技术的核心基础hadoop.mapreduce.nosql系统,而这三个系统是建立在谷歌提出的大表.分布式文件系统和分布式计算的三大技术构架上,以此来解决海量数据处理的问题.虽然说大数据处理技术最早兴

企业级大数据处理方案-01

企业级大数据处理方案有三种业务场景: 1.离线处理:(mapreduce(第一代).sparksql(第二代)) 2.实时处理:(数据库操作.storm) 3.准实时处理.(spark Streaming) mapreduce与spark对比 mr与spark优缺点对比:(一) a.mapreduce频繁的数据读写,使数据处理速度滞后 b.spark所有计算在内存中消除了,磁盘读写此快其一 mr与spark优缺点对比:(二) a.mapreduce每一个计算过程与上一个计算过程无血统继承 b.s

一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

作者:大数据女神-诺蓝(微信公号:dashujunvshen).本文是36大数据专稿,转载必须标明来源36大数据. 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统 一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种

[转载] 一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等

原文: http://www.36dsj.com/archives/25042 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统.消息系统.分布式服务.集群管理.RPC.基础设施.搜索引擎.Iaas和监控管理等大数据开源工具. 日志收集系统 一.Facebook Scribe 贡献者:Facebook 简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用.它能够从各种日志源上收集日志,存储到一个中央存储