大数据处理系统都有哪些?(流式计算系统)

我们在上一篇文章中给大家介绍了批处理系统以及迭代计算系统。这两种方法都是比较抽象的,我们在这篇文章中给大家介绍一种Facebook经常使用的流式计算系统,希望这篇文章能够给大家带来帮助。

流式计算系统就是因为流式计算具有很强的实时性,需要对应用源源不断产生的数据实时进行处理,使数据不积压、不丢失,常用于处理电信、电力等行业应用以及互联网行业的访问日志等。在Facebook 的 Scribe、 Apache的 Flume、 Twitter的 Storm、 Yahoo的S4、UCBerkeley的Spark Streaming是常用的流式计算系统。下面我们分别说说scribe、flume、Storm、S4以及Spark Streaming。

首先说说Flume。Flume其功能与Scribe相似,主要用于实时收集在海量节点上产生的日志信息,存储到类似于HDFS的网络文件系统中,并根据用户的需求进行相应的数据分析。而Scribe用于从海量服务器实时收集日志信息, 对日志信息进行实时的统计分析处理,应用在Facebook内部。Storm是基于拓扑的分布式流数据实时计算系统,现已经开放源代码,并应用于淘宝、百度、支付宝、Groupon、Facebook等平台,是主要的流数据计算平台之一。而S4:全称是Simple Scalable Streaming System,是由Yahoo开发的通用、分布式、可扩展、部分容错、具备可插拔功能的平台,s4其设计目的是根据用户的搜索内容计算得到相应的推荐广告,现已经开源,是重要的大数据计算平台。最后说一下Spark Streaming,这是构建在Spark上的流数据处理框架,将流式计算分解成一系列短小的批处理任务进行处理。

网站流量统计是Spark Streaming的一种典型的使用场景,这种应用既需要具有实时性,还需要进行聚合、去重、连接等统计计算操作。如果使用Hadoop MapReduce框架,则可以很容易地实现统计需求,但无法保证实时性;如果使用Storm这种流式框架则可以保证实时性,但实现难度较大。Spark Streaming可以以准实时的方式方便地实现复杂的统计需求。这句需要我们掌握好这些内容。

我们在这篇文章中给大家介绍了流式计算系统的内容,具体内容就是scribe、flume、Storm、S4以及Spark Streaming。这些内容都在全球的大公司中都有应用,由此可见这些方法还是比较实用的,大家要好好学习起来,利用好这些资源。

原文地址:https://www.cnblogs.com/CDA-JG/p/10219268.html

时间: 2024-07-29 12:52:28

大数据处理系统都有哪些?(流式计算系统)的相关文章

大数据处理系统都有哪些?(批处理系统与迭代计算系统)

我们在前面的文章中给大家介绍了数据查询分析计算系统,数据查询分析计算系统是一个比较常见的系统,其实除了这一个数据查询分析计算系统还有很多系.我们在这篇文章中给大家介绍一下批处理系统和迭代计算系统,希望这篇文章能够给大家带来帮助. 我们首先说说批处理系统.批处理系统中的MapReduce是被广泛使用的批处理计算模式.MapReduce对具有简单数据关系.易于划分的大数据采用"分而治之"的并行处理思想,将数据记录的处理分为Map和Reduce两个简单的抽象操作,提供了一个统一的并行计算框架

开源大数据处理系统/工具大全

本文一共分为上下两部分.我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考.下面是第一部分. 查询引擎 一.Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询.Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动. Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的J

大数据技术(1)流式计算与Storm

2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据.因为其高吞吐.高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展.一般来讲,根据业务需求,数据的处理可以分为离线处理和实时处理,在离线处理方面Hadoop提供了很好的解决方案,但是针对海量数据的实时处理却一直没有比较好的解决方案. 就在人们翘首以待的时间节点,storm横空出世,与生俱来的分布式.高可靠.高吞

企业如何快速搭建大数据处理系统

随着互联网+时代的来临,互联网已经从InformationTechnology (IT)时代过度到Data Technology (DT)时代,数据量也以几何量级递增,数据整体呈现出5V特征,大体量(Volume).多样性(Variety).时效性(Velocity).准确性(Veracity),大价值(Value).大体量体现为数据量可以从TB到PB,甚至到EB规模,google资料显示,其每天搜索提供的数量达到30PB(1P=1024TB), 这些数据如果打印出来将超过5千万亿张A4纸,但是

java mysql大数据量批量插入与流式读取分析

总结下这周帮助客户解决报表生成操作的mysql 驱动的使用上的一些问题,与解决方案.由于生成报表逻辑要从数据库读取大量数据并在内存中加工处理后在 生成大量的汇总数据然后写入到数据库.基本流程是 读取->处理->写入. 1 读取操作开始遇到的问题是当sql查询数据量比较大时候基本读不出来.开始以为是server端处理太慢.但是在控制台是可以立即返回数据的.于是在应用 这边抓包,发现也是发送sql后立即有数据返回.但是执行ResultSet的next方法确实阻塞的.查文档翻代码原来mysql驱动默

开源大数据(hadoop生态系统、流式处理系统等)处理工具汇总

http://www.aboutyun.com/thread-11944-1-1.html http://www.aboutyun.com/thread-11945-1-1.html

大数据入门第十六天——流式计算之storm详解(二)常用命令

一.常用命令 1.提交命令 提交任务命令格式:storm jar [jar路径] [拓扑包名.拓扑类名] [拓扑名称] torm jar examples/storm-starter/storm-starter-topologies-0.9.6.jar storm.starter.WordCountTopology wordcount 原文地址:https://www.cnblogs.com/jiangbei/p/8513989.html

从Storm和Spark Streaming学习流式实时分布式计算系统的设计要点

0. 背景 最近我在做流式实时分布式计算系统的架构设计,而正好又要参见CSDN博文大赛的决赛.本来想就写Spark源码分析的文章吧.但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够.因此,我将最近一直在做的系统架构的思路整理出来,形成此文.为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,更能体会到每个具体实现背后的意义. 本文对流式系统出现的背景,特点,数据HA,服务HA,节点间和计算逻辑间

大数据处理之流式计算简介

简介 Strom是一个开源的分布式流式计算系统,用来处理流式的数据,被称作为流式的hadoop,在电信行业,可以用来做大流量预警.终端营销.访问竞争对手产品从而做挽留等业务.本文将从storm在hadoop生态圈中所处位置.storm中术语.storm平台搭建.storm应用程序构建等详细介绍storm. Strom在大数据生态圈中的位置 上图可以看出,Storm处于HDFS之上,但是并不是说Storm只能是处理HDFS中数据,反而Storm的数据来源一般是Log日志或者是Kafka中数据,当数