批处理与实时处理

==============================================================

场景:

报表任务:不是实时报表,数据需要加工

推荐系统:要求实时

自己目前对于实时系统的知识不是太多,开发场景也比较少,所以仅仅是为了学习

==============================================================

分布式系统:一个系统多套部署,多套存储,多套缓存,多套数据库(RDBMS,NoSQL)----就是所谓的集群系统,负荷量比较大

非分布式系统:仅仅不是在一台服务器一个数据库一个缓存服务器

为了系统的高可用,可以借鉴数据库系统设计的思想,使其具有事务机制(重试机制,提交机制,跳跃机制,恢复机制)

管理器:就是对所属资源进行分配,调度,是软件设计中模拟显示世界的一种思想(Tracker,mannager,Lanuch,Worker,Context)

==============================================================

批处理:累计采集业务数据,达到一定数量之后统一进行处理。比如报表数据,每个月对当月的数据进行统计 --定时任务或者批处理框架(Spring batch)  Hadoop

实时处理:数据一旦产生即可处理 ---可以借助消息队列Queue(监听机制,订阅机制)   Storm

注意:都是针对数据量特别大的场景

但是对于分布式处理可能有有点麻烦,所以出现了一些框架:hadoop,Storm等

一般实时处理都采用事件机制(CEP)

==============================================================

hadoop:比较火的一个词,一个分布式批处理框架

storm: 最近的一个实时处理框架

==============================================================

串并转换的思想或者分治的思想:

拆分异步执行,合并串行执行

==============================================================

批处理与实时处理

时间: 2024-11-08 19:38:38

批处理与实时处理的相关文章

JavaScript —— 下一代物联网全栈开发

作者简介:李知周,中国科学院微系统与信息技术研究所博士,物联网早期创业者,发起了开源物联网项目 Openfpgaduino,目前在国际知名投资银行从事基于大数据与机器学习的网络安全开发. 本文为<程序员>杂志原创文章,未经授权,请勿转载 关注公众号"CSDN 物联网开发"微信公众号,了解更多物联网资讯与干货 Jeff Atwood 曾提出"任何能够用 JavaScript 实现的应用,最终都必将用 JavaScript 实现"他对 JavaScript

分布式技术一周技术动态 2015.11.29

分布式系统实践 1. (学术论文)Fail at Scale Reliability in the face of rapid change http://queue.acm.org/detail.cfm?id=2839461 要点: 本文介绍了facebook的在线系统稳定性解决方案. 文章涵盖了配置管理系统, 分级发布, 快速回滚, 控制延迟算法, 并发度控制, 防止雪崩, 核心服务健壮性,  故障演练等涉及服务稳定性的方方面面, 对我们的系统稳定性有很大的参考价值(特别是延迟控制算法, 对

大数据系统和分析技术综述【程学旗】

本文结构 1 大数据处理与系统 1.1 批量数据处理系统 1.1.1 批量数据的特征与典型应用 1.1.2 代表性的处理系统 1.2 流式数据处理系统 1.2.1 流式数据的特征及典型应用 1.2.2 代表性的处理系统 1.3 交互式数据处理 1.3.1 交互式数据处理的特征与典型应用 1.3.2 代表性的处理系统 1.4 图数据处理系统 1.4.1 图数据的特征及典型应用 1.4.2 代表性图数据处理系统 1.5 小 结 2 大数据分析 2.1 深度学习 2.2 知识计算 2.3 社会计算 2

Summingbird(Storm + Hadoop)的demo运行

前言 为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园友且听笔者一一道来,大体可以将summingbird理解为Storm + Hadoop. 一.大数据处理快速预览 大数据时代的来临,将大数据处理分为了批量处理与实时处理两个方向,批量处理的优势在于容错性好,因为数据时先存在本地或者是分布式的进行存储,可以重复对数据进行处理,劣势在于速度慢,要等到数据全部

Spring 数据处理框架的演变

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 定量分析的成败在很大程度上取决于采集,存储和处理数据的能力.若能及时地向业务决策者提供深刻并可靠的数据解读,大数据项目就会有更多机会取得成功. 如今,为数据处理设计合适的架构需要下很大工夫.数据处理主要包括 3 个方面: 批处理:批量处理大量的静态数据.这一方式一般是分布式并且可扩展的. 实时处理:实时处理主要处理连续且无尽的的数据流.这些数据流也是分布式的,且速度很快. 混合计算模型:该模型是批处理和实时处理的结合,可以处理大量和高速

什么是大数据架构?

大数据架构是用于摄取和处理大量数据(通常称为"大数据")的总体系统,因此可以针对业务目的进行分析.该架构可视为基于组织业务需求的大数据解决方案的蓝图. 大数据架构是用于摄取和处理大量数据(通常称为"大数据")的总体系统,因此可以针对业务目的进行分析.该架构可视为基于组织业务需求的大数据解决方案的蓝图.大数据架构旨在处理以下类型的工作: ?批量处理大数据源. ?实时处理大数据. ?预测分析和机器学习. 精心设计的大数据架构可以节省企业资金,并帮助其预测未来趋势,从而做

Storm流计算从入门到精通之技术篇(高并发策略、批处理事务、Trident精解、运维监控、企业场景)

对这个课程有兴趣的可以加我qq2059055336和我联系 Storm是什么? 为什么学习Storm? Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop. 随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计.推荐系统.预警系统.金融系统(高频交易.股票)等等, 大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是流计算技术中的佼佼者和主流. 按照storm作者的说法,Storm对于实

课程预告:大数据实时处理系统Apache Storm

Storm为分布式实时计算提供了一组通用原语,可被用于"流处理"之中,实时处理消息并更新数据库.这是管理队列及工作者集群的另一种方式. Storm也可被用于"连续计算"(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户.它还可被用于"分布式RPC",以并行的方式运行昂贵的运算. Storm可以方便地在一个计算机集群中编写与扩展复杂的实时计算,Storm用于实时处理,就好比 Hadoop 用于

Spark SQL实现日志离线批处理

一. 基本的离线数据处理架构: 数据采集   Flume:Web日志写入到HDFS 数据清洗   脏数据 Spark.Hive.MR等计算框架来完成. 清洗完之后再放回HDFS 数据处理   按照需要,进行业务的统计和分析. 也通过计算框架完成 处理结果入库   存放到RDBMS.NoSQL中 数据可视化    通过图形化展示出来.  ECharts.HUE.Zeppelin 处理框图: 1 2 3 4 5 6 7为离线处理,其中5不一定是Hive(还有Spark SQL等) 6不一定是RDBM