三分钟了解实时流式大数据分析

大家好,今天为大家介绍华为云实时流计算服务CS,希望通过本次分享,大家能对华为云实时流计算服务的服务能力和业务场景有所了解。
我们先了解一下实时流计算背景。下面列举的是流数据普遍产生的四个方面:一、日志;二、物联网,也就是传感器或者边缘设备所产生的数据;三、车联网,也就是车辆行驶过程中或者车载系统所产生的数据;四、StreamingML。流数据普遍产生,但并没有充分产生价值。那么什么是实时流计算呢?实时流是指计算框架按事件逐条实时处理,one-by-one的数据流。计算,是指数学运算数据分析,算法模型执行等。实时流计算是指实时处理当下正在发生的流数据,逐条大数据分析或运行机器学习算法。

以上这幅图是一个事件时间和执行时间的曲线。相对于事件时间,也就是事件发生的时间来说,执行时间也就数据处理时间有一个延迟。目前技术发展加速度不断上升,人的耐心程度在下降,而大数据增速在不断上升。所以实时流计算需要快速驱动业务,最大限度挖掘数据价值。

以上这幅图就是时间和数据价值的曲线。我们可以看到距当下时间越近,每GB所产生的价值越高,几乎是呈一个指数型的函数,因此大数据AI越实时越有价值。当前的开源流数据的框架许多包括APACHE STORM、Aakka、kafka等等,但是目前主流的框架主要是Apache Spark和Flink, 实时流计算服务,正是基于这两种框架。
那么实时流到底是什么?实时流计算服务(Cloud Stream Service, 简称CS)提供实时处理流式大数据的全栈能力, 简单易用, 即时执行Stream SQL或自定义作业。无需关心计算集群, 无需学习编程技能。完全兼容Apache Flink和Spark API。华为云实时流计算服务主要提供如下功能:1.StreamingML :提供多种流式机器学习方法对数据进行实时分析与预测,用户仅需编写SQL调用相关函数便可实现数据统计,异常检测,实时聚类,时间序列分析等场景;2.地理位置分析:提供地理位置分析函数对地理空间数据进行实时分析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景;3.CEP SQL:提供基于Match Recognize的模式匹配检测,帮助业务人员使用SQL实现基于复杂事件规则的异常检测业务。典型应用场景如欺诈检测、车辆异常行为检测、工业设备异常运行状态检测等;4.可视化:提供多种图表类型实时展示作业数据输出,用户可以通过API网关服务自由访问作业数据,接入自定义工作流中。应用场景包括易用、低时延、高吞吐的实时流分析;物联网行业应用,即物联网设备或边缘设备,上传数据到数据接入服务(DIS)或者其他云存储服务,CS直接从DIS读取数据,实时分析数据流(故障检测、数据清洗、统计分析、指标预警等等),实时把流分析结果持久化或推送告警通知等。
想要学习更多实时流相关内容及如何使用吗,现在进入华为云学院(https://edu.huaweicloud.com/courses/) 即可免费学习最新课程《华为云实时流计算服务》,快速了解低时延、高吞吐、高可靠的分布式实时流计算服务!

原文地址:http://blog.51cto.com/13988201/2343617

时间: 2024-10-07 06:13:32

三分钟了解实时流式大数据分析的相关文章

流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行.一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去:而bolt

翻译-In-Stream Big Data Processing 流式大数据处理

相当长一段时间以来,大数据社区已经普遍认识到了批量数据处理的不足.很多应用都对实时查询和流式处理产生了迫切需求.最近几年,在这个理念的推动下,催生出了一系列解决方案,Twitter Storm,Yahoo S4,Cloudera Impala,Apache Spark和Apache Tez纷纷加入大数据和NoSQL阵营.本文尝试探讨流式处理系统用到的技术,分析它们与大规模批量处理和OLTP/OLAP数据库的关系,并探索一个统一的查询引擎如何才能同时支持流式.批量和OLAP处理. 在Grid Dy

马化腾漫谈“流式大数据处理的三种框架:Storm,Spark和Samza”

Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行.一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去:而bolt则负责转换这些数据流,在bolt中可以完成计算.过滤等操作,bolt自身也可以随机将数据发送给其他bolt.由spout发射出的tu

storm流式大数据处理流行吗

在如今这个信息高速增长的今天,信息实时计算处理能力已经是一项专业技能了,正是因为有了这些需求的存在才使得分布式,同时具备高容错的实时计算系统Storm才变得如此受欢迎,为什么这么说呢?下面看看新霸哥的介绍. 优点之一:高可靠性 对Storm有了解的朋友可能会知道spout发出的消息后续可能会触发产生成千上万条消息,可以形象的理解为一棵消息树,其中spout发出的消息可以非常形象的比喻为树根,Storm会跟踪这棵消息树的处理情况,只有当这棵消息树中的所有消息都被处理了,Storm才会认为spout

流式大数据计算实践(2)----Hadoop集群和Zookeeper

一.前言 1.上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群 二.搭建Hadoop集群 1.根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2.清空数据,首先把运行单机模式后生成的数据全部清理掉 rm -rf /work/hadoop/nn/current rm -rf /work/hadoop/dn/current hdfs namenode

storm项目之实时流式计算介绍

通过简单快速的学习,了解并学会使用storm及相关组件,在遇到问题时,知道如何解决.

第三中情况可以用Storm分布式处理框架处理实时流式数据

http://www.blogbus.com/hrl-logs/296460063.htmlhttp://www.blogbus.com/anylt-logs/296460134.htmlhttp://www.blogbus.com/anylt-logs/296460131.htmlhttp://www.blogbus.com/hrl-logs/296460199.htmlhttp://www.blogbus.com/anylt-logs/296460425.htmlhttp://www.blo

轻松用Storm进行实时大数据分析【翻译】

原文地址 简单易用,Storm让大数据分析变得轻而易举. 如今,公司在日常运作中经常会产生TB(terabytes)级的数据.数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其他业务环境中创建的数据.考虑到数据的生成量,实时计算(real-time computation )已成为很多组织面临的一个巨大挑战.我们已经有效地使用了一个可扩展的实时计算系统--开源的 Storm 工具,它是有 Twitter 开发,通常被称为"实时 Hadoop(real-time Hadoo

使用Storm实现实时大数据分析(转)

原文链接:http://blog.csdn.net/hguisu/article/details/8454368 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战.我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop