大数据读书笔记(2)-流式计算

早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统。

流式计算系统的特点：

1)低延迟 2)极佳的系统容错性 3)极强的系统扩展能力 4）灵活强大的应用逻辑表达能力

目前典型的流式计算系统：

S4，storm，millwheel，samza，d-stream，hadoop online，mupd8等。

其中storm和millwheel是各方面比较突出的。

流式计算系统架构：

常见的流式计算系统架构分为两种：主从模式和p2p模式。

主从模式storm、millwheel和samza

p2p模式s4

samza是利用消息系统kafka和hadoop2.0的资源管理系统Yarn综合而成的，架构比较独特，但本质上遵循主从架构。

送达保证

三种可能：至少送达一次(at_least once delivery),至多送达一次(at_most once delivery),恰好送达一次(Exeact-once delivery)。

storm在系统中提供"恰好送达一次"语义是通过送达保证机制和事务拓扑联合来完成的。

samza依靠kafka的消息持久化联合broker缓存机制，保证"恰好送达一次"语义。

时间： 2024-10-31 14:39:48

大数据读书笔记(2)-流式计算的相关文章

实战大数据读书笔记

首先说下对这本书的感觉,虽然这貌似是第一本讲述大数据项目案列(基于微博的股票市场预测系统,技术内容的海量视频检索系统,基于HDFSd的云文件系统)的书籍,但是书上面的代码很少,图书馆和网上都没有源码可供下载,甚至电子书都还要买....可能就是因为刚出来吧再说下HBase的系统架构 http://img.blog.csdn.net/20160506093443453 支撑层的HDFS对于HBase而言是不可或缺的,HBase本身不会存储数据,表中的数据都需以文件的形式持久化到分布式文件系统中,.

大数据学习——hdfs客户端流式操作代码的实现

package cn.itcast.bigdata.hdfs.diceng; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import org.junit.Before; import org.junit.Test; import java.io.File; import java.io.FileInputStrea

大数据读书笔记(1)

1. 数据分片与路由抽象模型为两级映射关系,第一级映射是key-partition映射,第二级映射是partition-machine映射. 数据分片有哈希分片和范围分片: 哈希分片只支持点查询,如cassandra,voltmort,membase: 范围分片支持范围查询,google的bigtable 和ms的azure: 同时支持两种的yahoo的pnuts. 2.哈希分片时进行数据分片的常见手段,其中最常见的3中哈希分片方式分表是:轮询.虚拟桶.一致哈希方法 2.1 轮询也称哈希取模方

什么是流式计算？

一.流式计算的背景在日常生活中,我们通常会先把数据存储在一张表中,然后再进行加工.分析,这里就涉及到一个时效性的问题.如果我们处理以年.月为单位的级别的数据,那么多数据的实时性要求并不高:但如果我们处理的是以天.小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高.在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求. 二.流式计算与批量计算大数据的计算模式主要分为批量计算(batch computing).流式计

大数据技术（1）流式计算与Storm

2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据.因为其高吞吐.高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展.一般来讲,根据业务需求,数据的处理可以分为离线处理和实时处理,在离线处理方面Hadoop提供了很好的解决方案,但是针对海量数据的实时处理却一直没有比较好的解决方案. 就在人们翘首以待的时间节点,storm横空出世,与生俱来的分布式.高可靠.高吞

流式计算形态下的大数据分析

1 介绍 1.1 流式计算介绍流式大数据计算主要有以下特征: 1)实时性.流式大数据不仅是实时产生的,也是要求实时给出反馈结果.系统要有快速响应能力,在短时间内体现出数据的价值,超过有效时间后数据的价值就会迅速降低. 2)突发性.数据的流入速率和顺序并不确定,甚至会有较大的差异.这要求系统要有较高的吞吐量,能快速处理大数据流量. 3)易失性.由于数据量的巨大和其价值随时间推移的降低,大部分数据并不会持久保存下来,而是在到达后就立刻被使用并丢弃.系统对这些数据有且仅有一次计算机会. 4)无限性

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

Hadoop大数据处理读书笔记

几个关键性的概念云计算:是指利用大量计算节点构成的可动态调整的虚拟化计算资源,通过并行化和分布式计算技术,实现业务质量可控的大数据处理的计算技术. NameNode:是HDFS系统中的管理者,它负责管理文件系统的命名空间,维护文件系统的文件树以及所有的文件和目录的元数据.这些信息存储在NameNode维护的两个本地磁盘文件:命名空间镜像文件和编辑日志文件.同时,NameNode中还保存了每个文件与数据块所在的DataNode的对应关系,这些信息被用于其他功能组件查找所需文件资源的数据服务器.

流式计算（二）-Kafka Stream

前面说了Java8的流,这里还说流处理,既然是流,比如水流车流,肯定得有流的源头,源可以有多种,可以自建,也可以从应用端获取,今天就拿非常经典的Kafka做源头来说事,比如要来一套应用日志实时分析框架,或者是高并发实时流处理框架,正是Kafka的拿手好戏. 环境:Idea2019.03/Gradle6.0.1/JDK11.0.4/Lambda/RHEL8.0/VMWare15.5/Springboot2.2.1.RELEASE/Zookeeper3.5.5/Kafka2.3.1 难度:新手--战