实时数据流处理简介

最近在组内作了次简单的分享,题目是实时数据流的处理,切入点主要是推荐系统中多种实时数据流的实时计算问题,当然像搜索的trends, 广告的实时计费等也可能会碰到类似的问题,PPT里面简单的介绍了下线上系统实际的结构和流程,系统上线运行近半年多,虽然没有出现过问题,其中有些问题还是值得修改和改善的,如果有业务相关的需求,这些问题会一并改善。

主要处理的问题:

1. 乱序的问题,这个在多数据流实时系统比较常见,即多种数据到达系统的时间不一致,传统的window join方法不太work

2.  低延迟和可扩展性,实时数据处理要为online model和service提供服务,秒级别的延迟是必须的,为应对可能的数据增长,可扩展性也是必须的。

现有系统面临的问题:

1.  数据服务化的问题,实时计算处理的中间数据不能很好的为第三方服务所共享,需要有中间数据落地或者API基本的数据暴露接口,避免重复计算和处理

2. 数据处理效率的问题,从kafka拉取数据时消息堆积、缓存处理等

3. 缓存处理问题,包括服务容错处理和缓存失效机制的问题,容错处理主要针对服务中缓存处理异常及故障重试服务化,缓存主动失效等。

PPT后面给出了可能的几个方案,个人在kafka consumer pull data 时候的ratelimiter、缓存和数据服务化等正在尝试,不一定是合适的解决方案,比较简单、有效的方法才是最实用的,需要根据应用场景进行选择。

PPT分享地址

时间: 2024-07-30 13:42:34

实时数据流处理简介的相关文章

在云上搭建大规模实时数据流处理系统

在大数据时代,数据规模变得越来越大.由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集.管理 和处理.本文主要介绍如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统,以及这个过程中主要遭遇的一些挑战.实践主要立 足建立一套汽车状态实时监控系统,可以在阿里云上立即进行部署. 一.实时大数据处理利器——Storm和Kafka 大数据时代,随着可获取数据的渠道增多,比如常见的电子商务.网络.传感器的数据流.太空数据等,数据规模也变得

如何创建一条可靠的实时数据流

数据的生命周期一般包含"生成.传输.消费"三个阶段.在有些场景下,我们需要将数据的变化快速地反馈到在线服务中,因此出现了实时数据流的概念.如何衡量数据流是否"可靠",不同的业务之间关注的指标差别很大.根据对大量业务场景的观察,我们发现对数据流要求最严格的业务场景往往和钱有关. 在广告平台业务中,广告的预算和消费数据. 广告主修改广告预算,投放系统首先将新的预算更新到数据库,然后需要将其同步到检索端.检索端将广告的预算和已消费金额作对比,重新决定广告是否有效.如果没有

Hadoop平台提供离线数据和Storm平台提供实时数据流

1.准备工作 2.一个Storm集群的基本组件 3.Topologies 4.Stream 5.数据模型(Data Model) 6.一个简单的Topology 7.流分组策略(Stream grouping) 8.使用别的语言来定义Bolt 9.可靠的消息处理 10.单机版安装指南 本文翻译自: https://github.com/nathanmarz/storm/wiki/Tutorial Storm是一个分布式的.高容错的实时计算系统.Storm对于实时计算的的意义相当于Hadoop对于

实时数据流式分析改变商业游戏规则

近些年,大数据流式处理的讨论热了起来,就在去年,阿里巴巴向apache基金会贡献了java语言版的Jstorm,国内的厂商或个人,随着技术的积累,正在逐步的加入这场世界变革当中.那么,为什么现在企业会越来越关注大数据的流式处理呢?仅仅对大容量的离线数据分析挖掘,已经逐渐满足不了企业不断增长的需求,新的技术和理论必将应运而生. 大容量的数据必须能够被极快速的处理,从而让企业的决策者能够迅速的根据市场变化而改变战略,这将成为未来商业,在满足客户不断延伸的需求,提供差异化服务的阿喀琉斯之踵.类似的需求

Web实时通讯技术简介

一.概述 1.Web端即时通讯技术 即时通讯技术简单的说就是实现这样一种功能:服务器端可以即时地将数据的更新或变化反应到客户端,例如消息即时推送等功能都是通过这种技术实现的.但是在Web中,由于浏览器的限制,实现即时通讯需要借助一些方法.这种限制出现的主要原因是,一般的Web通信都是浏览器先发送请求到服务器,服务器再进行响应完成数据的现实更新. 2.实现Web端即时通讯的方法 实现即时通讯主要有四种方式,它们分别是短轮询.长轮询(comet).长连接(SSE).WebSocket.它们大体可以分

基于最小生成树的实时立体匹配算法简介

转载请注明出处:http://blog.csdn.net/wangyaninglm/article/details/51533549, 来自: shiter编写程序的艺术 图割,置信传播等全局优化立体匹配算法,由于运算过程中需要迭代求精,运算时间长,无法达到实时计算立体匹配的需求,然而实时性需求却广泛存在立体匹配的应用场景中.很多基于局部匹配的算法虽然运算时间短,但由于仅考虑匹配窗内的代价聚合,效果很差,视差图只有很多稀疏的视差点,还要经过插值计算,显然无法用于汽车导航,目标拾取等需要精确结果且

ASP.NET Core的实时库: SignalR简介及使用

大纲 本系列会分为2-3篇文章. 第一篇介绍了SignalR的预备知识和原理 本文介绍SignalR以及ASP.NET Core里使用SignalR. 本文的内容: 介绍SignalR 在ASP.NET Core中使用SignalR SignalR SignalR是一个.NET Core/.NET Framework的开源实时框架. SignalR的可使用Web Socket, Server Sent Events 和 Long Polling作为底层传输方式. SignalR基于这三种技术构建

轻装上阵Flink--在IDEA上开发基于Flink的实时数据流程序

前言 本文介绍如何在IDEA上快速开发基于Flink框架的DataStream程序.先直接上手! 环境清单 案例是在win7运行.安装VirtualBox,在VirtualBox上安装Centos操作系统.所有资源都在百度云上,有需要请直接下载.安装教程基本都是傻瓜式,文章不做讲述,有需要直接网上搜索. 资源 版本 VirtualBox 5.2.16 Centos 6.5 Maven 3.6.3 JDK 8u241 IDEA 2019.3.2 Flink 1.10.0 链接:https://pa

Linux环境编程之共享内存区(一):共享内存区简介

Spark生态圈,也就是BDAS(伯克利数据分析栈),是伯克利APMLab实验室精心打造的,力图在算法(Algorithms).机器(Machines).人(People)之间通过大规模集成,来展现大数据应用的一个平台,其核心引擎就是Spark,其计算基础是弹性分布式数据集,也就是RDD.通过Spark生态圈,AMPLab运用大数据.云计算.通信等各种资源,以及各种灵活的技术方案,对海量不透明的数据进行甄别并转化为有用的信息,以供人们更好的理解世界.Spark生态圈已经涉及到机器学习.数据挖掘.