Ebay开源 Pulsar:实时大数据分析平台

作者:汪兴朗 汪明明 王巧玲

eBay作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于eBay过去的大数据处理的经验和对最新技术的运用,eBay探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台。并于2015年2月底开源此平台:
Pulsar.

Pulsar作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。
 

Pulsar平台提供了一个完整的实时大数据分析的解决方案:

 

 
该平台能够实时收集Event Stream,并且对Event进行实时的Enrichment和Sessionization, 推送到不同的实时应用,同时能够实时的进行统计和分析,对业务提供 Key insights.
 
在Pulsar平台内部,它把Event Stream看成一种类数据库的表,在上面通过应用申明式的4GL来定义Business logic. 并且同时开源了作为支撑Pulsar 的一个全新的大数据流处理框架: Pulsar Jetstream. 
 
Pulsar.Stream是一个通用的全新的大数据流的处理框架。他实现了一个开放的,自动发现的Topology, 不同的应用可以分布在不同的Data center, 通过网络进行自动的发现并且建立连接,数据主动从Producer推送到Subscriber. 在每个应用内部,通过Pipeline的方式连接各个业务模块,并且支持用4GL的EPL来定义业务逻辑。整个的topology是开放的并且能够动态扩展,相应的EPL也能够进行动态的更新且没有服务中断。
 
典型的部署结构

 
EPL Sample:

Event filtering and routing

insert into SUBSTREAM select D1, D2, D3, D4
from RAWSTREAM where D1 = 2045573 or D2 = 2047936 or D3 = 2051457 or D4 = 2053742; // filtering
@PublishOn(topics=“TOPIC1”)   // publish sub stream at TOPIC1
@OutputTo(“OutboundMessageChannel”)
@ClusterAffinityTag(column = D1);    // partition key based on column D1
select * FROM SUBSTREAM;

Aggregate computation

// create 10-second time window context
create context MCContext start @now end pattern [timer:interval(10)];
// aggregate event count along dimension D1 and D2 within specified time window
context MCContext insert into AGGREGATE select count(*) as METRIC1, D1, D2 FROM RAWSTREAM group by D1,D2 output snapshot when terminated;
select * from AGGREGATE;

TopN computation

// create 60-second time window context
create context MCContext start @now end pattern [timer:interval(60)];
// sort to find top 10 event counts along dimensions D1, D2, and D3
// within specified time window
context MCContext insert into TOPITEMS select count(*) as totalCount, D1, D2, D3 from RawEventStream group by D1, D2, D3 order by count(*) limit 10;
select * from TOPITEMS;
 
 

关于详细的信息,请看

www.ebaytechblog.com/2015/02/23/announcing-pulsar-real-time-analytics-at-scale

相关事件:

1.      Pulsar on QCon Shanghai 2014 –

http://www.infoq.com/cn/presentations/ebay-user-behavior-data-stream-processing-system

2.  Pulsar on milibo - http://www.milibo.com/talent/events.aspx?id=34
 
 
时间: 2024-07-31 16:02:02

Ebay开源 Pulsar:实时大数据分析平台的相关文章

使用Apache Kylin搭建企业级开源大数据分析平台

使用Apache Kylin搭建企业级开源大数据分析平台 转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程

Apache Kylin大数据分析平台的演进

Apache Kylin大数据分析平台的演进 转:http://mt.sohu.com/20160628/n456602429.shtml 我是来自Kyligence的李扬,是上海Kyligence的联合创始人兼CTO.今天我主要来和大家分享一下来Apache Kylin 1.5的新功能和架构改变. Apache Kylin是什么 Kylin是最近两年发展起来的开源项目,在国外的知名度不是很高,但是在中国广为人知.Kylin的定位是Hadoop大数据平台上的多维分析工具,最早是由eBay在上海的

使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战.Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析.CSDN在此编译.整理. 简单和明了,Storm让大数据分析变得轻松加愉快. 当今世界,公司的日常运营经常会生成TB级别的数据.数据来源囊括了互联网装置可以捕获的任何类型数据,网站.社交媒体.交易型商业数据以及其它商业环境中创建的数据.考虑到数据的生成量,实时处理成为了许多机

如何构建一个企业的大数据分析平台

面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题. 大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组件众多,如何将其有机地结合起来,完成海量数据的挖掘是一项复杂的工作.在搭建大数据分析平台之前,要先明确业务需求场景以及用户的需求,通过大数据分析平台,想要得到哪些有价值的信息,需要接入的数据有哪些,明确基于场景业务需求的大数据平台要具备的基本的功能,来决

基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战  课程学习入口:http://www.xuetuwuyou.com/course/184 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介: 某购物电商网站数据分析平台,分为收集数据.数据分析和数据展示三大层面.其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用. 课程内容 (1)文件收集框架 Flume ①Flume 设计架构.原理(三大组件) ②Flume 初步使

如何打造高性能大数据分析平台

1.大数据是什么? 大数据是最近IT界最常用的术语之一.然而对大数据的定义也不尽相同,所有已知的论点例如结构化的和非结构化.大规模的数据等等都不够完整.大数据系统通常被认为具有数据的五个主要特征,通常称为数据的5 Vs.分别是大规模,多样性,高效性.准确性和价值性. 据Gartner称,大规模可以被定义为"在本(地)机数据采集和处理技术能力不足以为用户带来商业价值.当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决方案. 这种大规模的数据没将不仅仅是来自于现有的

《开拓者开发团队》第二次作业:基于弹幕评论的大数据分析平台项目开题报告

一.项目申请简表 项目名称 基于弹幕评论的大数据分析平台 项 目 类 别 本科生 研究生 学术课题项目填写标 记(√) ( ) A.自然科学学术论文 (√ ) B.科技发明制作 ( ) C.社会科学论文与调查报告 类别 标记 ( ) (  ) A.学术科研类项目 (  ) B.社会调查类项目 (  ) C.创新实践类项目 创新创业 项目填写 标记(√) (√)信息技术         (  )电子商务         (  )健康医疗 (  )新能源新材料   (  )跨境电子商务    ( 

大数据分析平台安全评估的五大要素

大数据分析平台安全评估的五大要素.面对市场形形×××的大数据安全分析产品,用户需要擦亮眼睛,辨伪识真.在考核大数据安全分析平台时,要确保对以下五个要素进行评估,这对实现大数据分析的效果非常关键.这对于快速收集随时产生的海量数据.快速进行数据分析,确保安全人员高效响应非常重要. 要素1:统一的数据管理平台 统一的数据管理平台是大数据分析系统的基础.数据管理平台存储和查询企业数据.这似乎是一个广为所知,并且已经得到解决的问题,不会成为区分不同企业产品的特色,但实际情况却是,这仍是个问题.处理海量数据

企业信息管理原地踏步 你该考虑Power-BI大数据分析平台

大数据的浪潮已席卷全球,越来越多的企业逐渐认同数据分析在管理支持上的重要地位. 但对于大多数企业来说,大数据还是很陌生,构建大数据分析平台不是一件容易的事,总是障碍重重,导致忙活了半天,企业的数据化管理仍然在原地踏步.为此,这里提供奥威Power-BI首席咨询顾问邹总在长三角CIO高峰论坛分享的关于构建大数据分析平台的演讲提到的企业遇到的一些大问题,来看看你的企业有没有这些问题呢? 一.系统定位不清 在启动一个商业智能BI项目前,系统定位是非常关键的.但企业没有想清楚项目的目标,也没有对自己的信